1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Dirilis sebagai pratinjau awal dari model hosted proprietari eksklusif, dengan peningkatan pada coding bergaya agen, pengetahuan dunia, dan kemampuan mengikuti instruksi dibanding Qwen3.6-Plus
  • Disebut mencatat skor tertinggi di enam benchmark coding utama, dengan peningkatan terkonfirmasi pada SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, dan Terminal-Bench 2.0 +3.8
  • Pada benchmark pengetahuan dunia, ditunjukkan peningkatan SuperGPQA +2.3 dan QwenChineseBench +5.3, sementara pada kemampuan mengikuti instruksi tercatat ToolcallFormatIFBench +2.8
  • Akan tersedia di Alibaba Cloud Model Studio, bisa digunakan secara interaktif di Qwen Studio, dan di API mendukung nama qwen3.6-max-preview serta fitur preserve_thinking
  • Karena masih tahap pratinjau, pengembangan aktif akan terus berlanjut, dengan peningkatan tambahan di versi berikutnya dan refleksi umpan balik komunitas

Performa dan penggunaan

  • Qwen3.6-Max-Preview adalah pratinjau awal dari model hosted proprietari eksklusif yang dirilis setelah Qwen3.6-Plus
  • Untuk performa penggunaan nyata, disebutkan peningkatan pada agen nyata dan keandalan pengetahuan
  • Disebut mencatat skor tertinggi pada enam benchmark coding utama
    • SWE-bench Pro
    • Terminal-Bench 2.0
    • SkillsBench
    • QwenClawBench
    • QwenWebBench
    • SciCode
  • Pada benchmark coding bergaya agen, tercatat peningkatan besar dibanding Qwen3.6-Plus
    • SkillsBench +9.9
    • SciCode +6.3
    • NL2Repo +5.0
    • Terminal-Bench 2.0 +3.8
  • Peningkatan juga terkonfirmasi pada benchmark terkait pengetahuan dunia
    • SuperGPQA +2.3
    • QwenChineseBench +5.3
  • Kemampuan mengikuti instruksi juga meningkat
    • ToolcallFormatIFBench +2.8
  • Mengembangkan dengan Qwen3.6-Max-Preview

    • Penyediaan Qwen3.6-Max-Preview di Alibaba Cloud Model Studio akan segera dimulai, dan diminta untuk menunggu sampai sepenuhnya siap
    • Disebutkan dapat digunakan melalui API Alibaba Cloud Model Studio sebagai qwen3.6-max-preview, dan dapat langsung dicoba di Qwen Studio
  • Penggunaan API

    • Rilis kali ini mendukung fitur preserve_thinking
      • Mempertahankan thinking content dari semua giliran sebelumnya dalam pesan
      • Direkomendasikan untuk tugas bergaya agen
  • Alibaba Cloud Model Studio

    • Mendukung protokol standar industri
      • Mendukung chat completions API yang kompatibel dengan spesifikasi OpenAI
      • Mendukung responses API yang kompatibel dengan spesifikasi OpenAI
      • Mendukung antarmuka API yang kompatibel dengan Anthropic
    • Menyertakan contoh variabel lingkungan
      • Memerlukan DASHSCOPE_API_KEY
      • DASHSCOPE_BASE_URL bersifat opsional
      • Menyediakan contoh endpoint Beijing, Singapore, dan US Virginia
      • DASHSCOPE_MODEL bersifat opsional dengan nilai default qwen3.6-max-preview
    • Dalam contoh kode digunakan enable_thinking: True
    • preserve_thinking juga disertakan dalam contoh berbentuk komentar
    • Menyediakan contoh pengumpulan reasoning_content dan content secara terpisah dalam respons streaming
    • Untuk informasi tambahan, diarahkan ke tautan dokumentasi API

Penutup

  • Sebagai rilis pratinjau, perbaikan berulang akan terus berlanjut, dan peningkatan tambahan direncanakan di versi berikutnya
  • Umpan balik komunitas disambut dan akan dimanfaatkan

1 komentar

 
GN⁺ 1 jam lalu
Pendapat Hacker News
  • Rasanya agak lucu melihat orang terlalu terobsesi hanya pada perbandingan SOTA. Saya pernah melihat glm 5.1 berhasil melakukan hal-hal yang tidak bisa dilakukan Opus, dan juga menulis kode lebih baik. Saya belum mencoba qwen max, tetapi saya juga pernah melihat model lokal 122b membaca dokumen dengan lebih baik dan memprosesnya lebih akurat. Pada akhirnya benchmark hanya sebagian dari gambaran; di dunia nyata setiap model punya kekuatan yang berbeda, jadi menurut saya tidak tepat membandingkannya sekadar siapa lebih unggul, seperti membandingkan palu dengan kunci pas

    • Saya memakai GLM-5.1 di pi.dev milik Ollama Cloud untuk proyek pribadi, dan sejauh ini cukup puas. Di kantor, saya memakai pi.dev bersama Claude Sonnet dan Opus 4.6. Claude Code juga bagus, tetapi setelah update terbaru saya jadi terlalu sering harus melakukan compact, yang cukup merepotkan. Saat memakai pi.dev, meski tidak ada MCP tool calling, integrasi API-nya berjalan baik sehingga saya tidak merasa terlalu kehilangan. Malah untuk pembuatan website, saya merasa GLM-5.1 lebih baik daripada Claude Opus, dan di platform pengembangan full-stack yang sedang saya bangun sekarang pun hasilnya sangat bagus
    • GLM 5.1 adalah model pertama yang membuat saya merasa model Tiongkok benar-benar sudah menyusul. Karena itu saya juga membatalkan langganan Claude Max, dan jujur sama sekali tidak menyesal. Melihat pendapat orang yang berbeda-beda, rasanya kita sudah sampai di tahap di mana yang lebih penting daripada peringkat SOTA absolut adalah domain dan pola penggunaan
    • Hampir satu-satunya alasan saya masih terus memakai Claude dan ChatGPT adalah karena tool calling. Ada juga fitur berguna seperti skills. Saya pernah mencoba qwen dan deepseek, tetapi ada kalanya bahkan output dokumen saja tidak berjalan baik. Saya penasaran bagaimana orang lain memproses dokumen atau Excel dengan alat-alat ini, dan kalau memungkinkan saya juga ingin pindah
    • Beberapa bulan lalu, Qwen3-Coder menghasilkan kode Rust yang jauh lebih baik daripada Claude Opus atau Google Gemini. Saya sangat terkesan terutama karena ia bisa menghasilkan kode yang memanfaatkan ekstensi vektor x86-64 milik Rust. Saya memanggilnya lewat harness seperti Zed editor atau trae CLI, dan benar-benar sangat terkejut
    • Nilai benchmark model-model ini pada umumnya mirip dan selisihnya kecil, jadi dalam situasi seperti ini saya rasa masuk akal memilih berdasarkan kriteria lain. Dalam kasus saya, kalau plugin JetBrains-nya saja keluar dengan layak, saya bersedia langsung pindah ke vendor mana pun
  • Di kantor saya sudah beberapa bulan rutin memakai Claude Code, dan belum lama ini juga sangat terbantu untuk proyek website pribadi kecil. Akhir pekan lalu saya bahkan pertama kali mencoba self-hosting. Saya penasaran apakah ada yang sudah cukup lama memakai CC atau Codex lalu berhasil menemukan konfigurasi self-hosted yang cukup memuaskan. Saya menguji berbagai kombinasi ollama, docker desktop model runner, pi-coding-agent, opencode dengan Gemma 4, Qwen, GLM-5.1 pada lingkungan 32GB DDR5, AMD 7800X3D, RTX 4090, Windows dan WSL. Karena penggunaan RAM dasar sudah tinggi, saya tidak bisa menjalankan model bagus seperti Gemma4-31B. Di lingkungan Windows murni, penanganan path file sering bermasalah, sedangkan menjalankan pi atau opencode di WSL dan model di docker desktop lumayan berhasil. Namun performa yang benar-benar terasa masih terlalu lambat dibanding CC, dan dari sisi kematangan alat pun CC harness terasa jauh lebih baik. Saya terlalu banyak menghabiskan waktu untuk setup sehingga tidak sempat memakainya lama, tetapi tetap saja ini eksperimen yang menarik

    • Coba pakai model MoE dan offload inferensi ke CPU. Contohnya Gemma 4 26b-a4b atau qwen3.6 35b-a3b. RAM 32GB memang agak mepet kalau aplikasi lain juga menyala, tetapi kalau system RAM cukup, hasilnya berjalan cukup baik. Ada juga cara memindahkan sebagian layer ke GPU, tetapi kombinasi model MoE dan llama.cpp sempat bermasalah. Sebagai gantinya, kalau KV cache diletakkan di GPU, kecepatannya cukup bagus dan context window juga bisa tetap lumayan. Saya pernah melihat hasil yang sangat mengesankan secara lokal. Saya juga sangat menyarankan untuk clone llama.cpp langsung di WSL2, lalu menyerahkan instalasi dan tuning-nya ke model frontier seperti Claude Code. Aplikasi yang dibangun di atas llama.cpp tidak mengekspos semua opsi dan flag, jadi hanya karena satu flag salah, performa bisa rusak besar, misalnya context cache tidak bekerja. Kalau build langsung dari source, saat ada masalah kita bisa langsung memeriksa kodenya. Dengan mesin itu, Gemma 4 setidaknya seharusnya bisa mencapai sekitar 20~40tok/s sehingga cukup layak dipakai nyata, dan qwen3.6 mungkin bisa lebih cepat karena parameter aktifnya 3b
    • Masalah yang Anda alami sekarang kemungkinan karena VRAM tidak cukup, jadi seluruh model tidak bisa dimuat sekaligus. Mungkin juga layak mencoba llmfit
  • Saya khawatir bidang ini akan mengalir ke pola: pertama membagikan gratis untuk membangun nama, lalu belakangan semuanya diubah jadi proprietary. Meski begitu, saya tetap berharap open weights terus dirilis. Kalau suatu hari tidak ada lagi yang merilis open weights, rasanya akan sangat pahit. Kalau dunia seperti itu datang, orang biasa kemungkinan akan makin sulit memiliki compute mereka sendiri

    • Menurut saya itu generalisasi yang agak berlebihan. Banyak model Amerika sejak awal memang tertutup, sementara model di luar Amerika, terutama model Tiongkok, justru lebih terbuka sejak awal. Bahkan di pihak Tiongkok ada juga kasus yang awalnya proprietary lalu kemudian dibuka, dan di antara model besar Qwen pun ada contoh seperti itu
    • Menurut saya ini terlihat seperti gerakan di level strategi nasional. Dengan terus merilis model gratis yang kompetitif, mereka tampak berusaha melemahkan moat yang ingin dibangun perusahaan Barat dengan model proprietary. Selama narasi yang menguntungkan Tiongkok tetap bertahan, saya rasa kecil kemungkinan mereka sepenuhnya berbalik menjadi proprietary
    • Dari sudut pandang produsen chip, mempertahankan lingkungan di mana kita bisa menjalankan model lokal juga tampaknya menguntungkan bagi mereka
    • Betul. Menurut saya bagi laboratorium Tiongkok, open source adalah semacam strategi komersial. Mereka tidak punya banyak sarana pemasaran lain yang efektif untuk memperkenalkan model dan layanan inferensi mereka, jadi ada sisi itu dalam keputusan tersebut. Tulisan terkait ini juga layak dilihat
    • Rasanya dari awal memang strukturnya mirip. Pada akhirnya ini juga dekat dengan SaaS, hanya saja bedanya sekarang paket langganan terendah dari frontier lab terasa seperti uji coba gratis
  • Hari ini Kimi K2.6 juga dirilis, jadi rasanya sangat wajar membandingkan keduanya. Dari harga saja, Qwen terlihat lebih mahal: input 1,3 dolar dan output 7,8 dolar, sedangkan Kimi input 0,95 dolar dan output 4 dolar. Di tulisan pengumuman itu pun hanya ada dua benchmark yang tumpang tindih, dan pada SWE-Bench Pro maupun Terminal-Bench 2.0, Kimi sedikit lebih tinggi daripada Qwen. Tentu tiap model punya kekuatan berbeda dan benchmark bukan segalanya, tetapi kalau hanya melihat angka, Kimi terasa lebih menarik

    • Saya merasa daya tarik model-model Tiongkok agak menurun karena harganya naik. Dan setelah Gemma-4 keluar, menurut saya tidak banyak model yang masih tersisa di pareto frontier. Kesan saya juga begitu, dan statistik leaderboard arena juga layak dijadikan referensi
  • Ironi pengumuman ini menurut saya ada pada namanya sendiri. Max-Preview itu proprietary dan cloud-only. Bagi saya, Qwen yang benar-benar penting adalah seri open weights yang dijalankan orang di hardware mereka sendiri. Saya menjalankan 32B dan 72B secara lokal dengan dual A4000. Masih ada jarak dengan Max hosted, tetapi tiap kali rilis, jarak itu terlihat makin kecil. Jadi pertanyaan yang benar-benar menarik bukan bagaimana Max dibandingkan dengan Opus, melainkan kapan tier open-weight akan membuat tier cloud menjadi tidak relevan untuk sebagian besar workload

  • Sementara semua orang mengejar SOTA, saya menjalankan beberapa sesi paralel dengan MiniMax M2.5 dan menyelesaikan semua pekerjaan coding saya hanya dengan 10 dolar per bulan, dan hampir tidak pernah terkena batas

    • Kalau untuk pekerjaan serius, selisih 10 dolar dan 100 dolar per bulan menurut saya bukan hal yang terlalu layak dipikirkan bagi sebagian besar developer profesional. Memang ada pengecualian seperti mahasiswa atau pengguna di negara berpendapatan rendah, tetapi saya selalu heran melihat developer bergaji tinggi terlalu berhemat pada biaya alat. Bahkan model SOTA saat ini pun rasanya masih sulit dipercaya sepenuhnya untuk hal lebih dari tugas sekali jalan, jadi mengawasi model yang performanya lebih rendah hanya demi menghemat 10~100 dolar per bulan sama sekali tidak menarik bagi saya. Model self-hosted masih seru untuk eksperimen pada tugas ringan yang bisa dibuang, tetapi untuk pekerjaan penting sungguhan saya tidak ingin membuang waktu saya
    • Saya penasaran 10 dolar per bulan itu dibayarkan ke mana. Ingin tanya apakah itu OpenRouter
    • Saya penasaran bagaimana tepatnya itu dipakai dalam praktik. Apakah menggunakan opencode, atau frontend lain
  • Saya juga membaca dokumentasi context caching Qwen dan menguji Opus, Codex, dan Qwen bersama-sama, dan memang terasa bahwa Qwen kuat pada banyak tugas coding. Namun yang paling saya perhatikan adalah bagaimana perilakunya dalam sesi panjang. Qwen memang menonjolkan context window besar, tetapi efisiensi long-context yang sebenarnya tampaknya sangat dipengaruhi oleh cara context caching bekerja. Menurut dokumentasi resmi, mereka menyediakan implicit dan explicit caching, tetapi TTL-nya hanya beberapa menit dan ada batasan seperti pencocokan berbasis prefix serta syarat token minimum. Karena batasan-batasan ini, pada workflow seperti coding agent yang konteksnya terus membesar, reuse cache mungkin tidak berjalan sebaik yang diharapkan. Jadi meskipun harga per token terlihat rendah, dalam sesi panjang cache hit rate bisa turun dan komputasi ulang meningkat, sehingga biaya yang terasa bisa jadi lebih tinggi. Meski begitu, untuk pekerjaan terkait keamanan saya pribadi pernah melihat Qwen bekerja lebih baik daripada Opus. Dalam pengalaman saya, untuk tugas pendek seperti level metode atau fungsi individual, Qwen jauh lebih baik daripada Opus, tetapi untuk pengalaman coding secara keseluruhan, ia terasa lebih seperti generator level fungsi daripada coding assistant end-to-end yang otonom seperti Claude

    • Meski begitu, memang benar bahwa memotong sesi panjang menjadi sesi pendek lalu memulai ulang adalah best practice. Dalam Claude Code Best Practices, Anthropic juga menjelaskan bahwa "sesi baru yang bersih dengan prompt yang lebih baik hampir selalu lebih baik daripada sesi panjang dengan revisi yang menumpuk"
    • Terakhir kali saya cek, context caching hanya mengurangi biaya dan latensi, dan tidak mengubah token apa yang sebenarnya dihasilkan
  • Melihat Qwen membandingkan dirinya dengan Opus 4.5, rasanya agak sulit menerimanya dengan itikad baik. Saya paham kalau Opus 4.7 yang sangat baru tidak dimasukkan, tetapi Opus 4.6 sudah keluar cukup lama

    • Bagi saya, Opus 4.5 adalah titik pertama di mana model terasa cukup bagus pada beragam masalah. Sebelumnya, memakai AI untuk pekerjaan pengembangan selalu berakhir tidak produktif karena waktu habis akibat halusinasi. Tetapi kalau kemajuan berhenti di Opus 4.5 pun, saya rasa kita tetap sudah bisa menyelesaikan sangat banyak pekerjaan nyata dengan cepat. Sekarang rasanya software development tidak akan kembali lagi sepenuhnya ke penulisan manual. Jadi kalau ada model yang setara atau sedikit lebih baik dari Opus 4.5 dengan harga sepersepuluhnya, itu bisa sangat menarik bagi banyak orang. Tentu bagi developer Barat, membayar lebih dari 100 dolar per bulan untuk Opus 4.7 juga tetap layak. Waktu yang dibuang oleh model kelas bawah jauh lebih mahal. Untuk sementara saya masih akan terus membayar premium pada model yang membuang lebih sedikit waktu, memberikan hasil lebih baik, dan butuh lebih sedikit perbaikan prompt. Pada saat yang sama, kecepatan perubahan ini benar-benar menakjubkan, dan sekarang model terbuka pun rasanya sudah sampai level yang bisa bersaing dengan frontier model dua tahun lalu. Qwen 3.6 MoE 35B A3B atau model Gemma 4 besar bisa dijalankan di perangkat yang cukup biasa seperti Macbook berperforma baik, Strix Halo, atau GPU 24GB maupun 32GB terbaru, dan tidak jauh lebih mahal daripada laptop developer era sebelum AI. Model-model itu bisa menulis kode, menulis teks cukup baik, memakai alat, dan panjang konteksnya juga cukup untuk penggunaan nyata. Memang belum setara Opus 4.5, tetapi cukup mengesankan. Saya sendiri sudah mencampur beberapa model untuk keamanan dan code review, dan meski untuk sebagian besar software development saya masih merasa Claude Code dan Opus adalah yang terbaik, saya tetap berniat mencoba Qwen dengan senang hati. Model-model kecilnya juga sangat bagus untuk kelasnya, jadi saya berharap banyak pada model besarnya
    • Kalau uang sama sekali bukan masalah, pada akhirnya tinggal melihat performa terbaik seperti Codex 5.4 atau Opus 4.7. Tetapi bagi banyak orang, kualitas dibanding biaya adalah variabel yang sangat besar. Bahkan di antara pelanggan Claude pun banyak yang tidak selalu bisa memakai Opus 4.7 karena tekanan biaya dan limit penggunaan, lalu memilih Sonnet atau Opus lama. Jadi kalau melihat kurva kualitas terhadap nilai, perbandingan seperti ini tetap cukup bermakna
    • Beberapa bulan terakhir performa Opus 4.6 terlalu naik-turun, jadi saya tidak ingin membuang token untuk itu
    • Ketika Sonnet 4.6 keluar, saya mengganti model default dari Opus ke Sonnet. Secara rasa, Sonnet 4.6 mirip kelas Opus 4.5. Memang 4.6 dan 4.7 lebih baik, tetapi untuk sebagian besar tugas loncatannya tidak terlalu besar, jadi penghematan biaya kini menjadi pilihan yang sangat masuk akal. Kalau model yang lebih murah mencapai level itu, itu lebih besar lagi, dan GLM 5.1 tampak cukup dekat sehingga saya sering memakainya. Dari sudut pandang itu, membandingkan dengan Opus 4.5 menurut saya tetap valid
    • Menurut saya perbandingan memang harus dilakukan dengan target yang paling mirip. Dan kalau benchmark disediakan langsung oleh vendor, tentu besar kemungkinan mereka memilih framework yang membuat model mereka terlihat unggul dan menyingkirkan yang merugikan. Jadi pada akhirnya yang benar-benar bisa dipercaya adalah benchmark independen
  • Belakangan ini kalau melihat penyedia Tiongkok, saya merasa ada pola. Pertama, mereka bergerak ke arah mempertahankan model sebagai closed source, dan kedua, mereka menaikkan harga cukup besar. Dalam beberapa kasus bahkan nyaris 100 persen

    • Agak aneh kalau itu terdengar seolah-olah ciri khas perusahaan Tiongkok saja. Perusahaan dari negara lain rasanya juga sama sekali tidak berbeda
    • Qwen max sejak awal memang cloud only, dan karena modelnya lebih dari 1T, menurut saya wajar kalau biayanya mahal
    • Saya ingin balik bertanya apa bedanya kenaikan harga besar itu dengan yang dilakukan perusahaan AS
    • Saya ingin tanya apakah itu juga berlaku untuk model seperti GLM 5.1, DeepSeek V3.2, atau Kimi K2.6 yang baru keluar. Rasanya justru tidak terlalu cocok untuk contoh-contoh itu
    • Reaksi pertama saya adalah bahwa perusahaan AS juga sangat suka trik seperti itu
  • Yang menarik, seseorang bisa saja tahu seluruh keluarga model Qwen yang bisa dijalankan lokal, tetapi sama sekali tidak tahu sisi model cloud-nya. Saya sendiri hanya tahu seri 3.5 dan mungkin satu model 3.6, dan nama Plus baru kali ini saya dengar

    • Kalau saya tidak salah ingat, seri Plus sudah ada sejak Qwen chat dipublikasikan. Saya ingat setidaknya pernah langsung memakai model Plus pada awal tahun lalu