Qwen3.7-Max: Frontier Agen

(qwen.ai)

5 poin oleh GN⁺ 2026-05-21 | 3 komentar | Bagikan ke WhatsApp

Qwen3.7-Max adalah model proprietary yang berfokus pada agen untuk coding dan debugging, otomasi perkantoran, serta eksekusi otonom ratusan hingga ribuan langkah
Model ini bersaing dengan model pesaing pada evaluasi coding, agen umum, penalaran, dan multibahasa, dengan mencatat 69,7 poin di Terminal Bench 2.0-Terminus dan 92,4 poin di GPQA Diamond
Dalam optimalisasi kernel otonom selama 35 jam, model ini melakukan 1.158 pemanggilan alat dan 432 evaluasi, mencapai peningkatan kecepatan geometric mean 10,0x dibanding baseline Triton
Dengan memisahkan instance pelatihan menjadi Task·Harness·Verifier, model ini melakukan pelatihan RL lintas harness dan mendorong pemecahan masalah yang tergeneralisasi alih-alih jalan pintas harness tertentu
API akan segera tersedia melalui Alibaba Cloud Model Studio, dan dapat diintegrasikan dengan framework agen seperti Claude Code, OpenClaw, dan Qwen Code

Evaluasi performa

Qwen3.7-Max dievaluasi bersama beberapa model pembanding di bidang agen coding, agen umum, STEM dan penalaran, kemampuan umum, serta multibahasa
Sel kosong (--) berarti skor belum disediakan
Agen coding
- Mencatat 69,7 poin di Terminal Bench 2.0-Terminus, melampaui 67,9 poin DS-V4-Pro Max
- Di SWE-Verified, mencatat 80,4 poin, setara dengan Opus-4.6 Max 80,8 poin dan DS-V4-Pro Max 80,6 poin
- Mencatat SWE-Pro 60,6 poin, SWE-Multilingual 78,3 poin, SciCode 53,5 poin, dan QwenSVG 1608 poin
- NL2repo dievaluasi dengan Claude Code, dan perintah Bash seperti pip download, pip install, git clone yang mencoba mengakses repositori tertentu dinonaktifkan
- QwenWebDev adalah benchmark internal pembuatan kode frontend dwibahasa Inggris-Tionghoa, menggunakan 7 kategori, rendering otomatis, penilaian multimodal, serta rating BT/Elo
Agen umum
- Di MCP-Mark, model ini meraih 60,8 poin, melampaui 57,5 poin GLM-5.1, dan di MCP-Atlas meraih 76,4 poin, melampaui 75,8 poin Opus-4.6
- Di Skillsbench, meraih 59,2 poin, lebih tinggi dari 56,2 poin K2.6
- Di Kernel Bench L3, mencatat peningkatan kecepatan median 1,98x dan win rate 96%, menunjukkan kemampuan optimalisasi kernel GPU
- Dengan BFCL-V4 75,0 poin, Qwenclaw 64,3 poin, dan ClawEval 65,2 poin, performanya mendekati Opus-4.6 Max
- Di SpreadSheetBench-v1, mencatat 87,0 poin, menunjukkan performa tinggi juga pada benchmark otomasi perkantoran
- QwenClawBench adalah benchmark agen Claw open source yang mencerminkan distribusi pengguna nyata
- CoWorkBench adalah benchmark kolaborasi internal yang menangani tugas jangka panjang di domain produktivitas seperti ilmu komputer, keuangan, hukum, dan medis
Penalaran
- Di GPQA Diamond, meraih 92,4 poin, melampaui 91,3 poin Opus-4.6
- Di HLE, meraih 41,4 poin, melampaui 40,0 poin Opus-4.6, dan di HMMT 2026 Feb meraih 97,1 poin, melampaui 96,2 poin Opus-4.6
- Di IMOAnswerBench, meraih 90,0 poin, melampaui 89,8 poin DS-V4-Pro, dan di Apex meraih 44,5 poin, melampaui 38,3 poin DS-V4-Pro
- Untuk skenario penalaran, prompt sistem yang diawali dengan Reasoning effort is set to xhigh... direkomendasikan
Kemampuan umum dan multibahasa
- Di IFBench, meraih 79,1 poin, melampaui 77,0 poin DS-V4-Pro, menunjukkan performa mengikuti instruksi yang presisi
- Di WMT24++, mencatat 85,8 poin, dan di MAXIFE 89,2 poin, menunjukkan kekuatan dalam pemahaman multibahasa dan kualitas terjemahan
- Di SuperGPQA, mencatat 73,6 poin, dan di QwenWorldBench 57,3 poin
- WMT24++ adalah subset WMT24 yang lebih sulit, menggunakan skor rata-rata XCOMET-XXL pada 55 bahasa
- MAXIFE mengukur akurasi pada 23 pengaturan prompt berbahasa Inggris dan multibahasa
- MMLU-ProX menggunakan akurasi rata-rata dari 29 bahasa

Kondisi evaluasi dan detail benchmark

Terminal-Bench 2.0 dievaluasi dengan harness Harbor/Terminus-2, batas 5 jam, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, maksimum 80K token, konteks 256K, dan rata-rata 5 kali
Keluarga SWE-Bench menggunakan scaffold agen internal serta alat Bash dan pengeditan file, dan dievaluasi dengan temp=1.0, top_p=0.95, jendela konteks 200K
SkillsBench dievaluasi dengan OpenCode, menggunakan rata-rata 5 kali pada 78 tugas setelah mengecualikan 9 tugas yang bergantung pada API eksternal
MCP-Mark menggunakan GitHub MCP v0.30.3 dan memotong respons Playwright pada 32K token
MCP-Atlas adalah skor set publik dan menggunakan penilai gemini-2.5-pro
Kernel Bench L3 melaporkan median peningkatan kecepatan per masalah dibanding baseline PyTorch eager pada 50 masalah, serta proporsi masalah yang lebih cepat daripada torch.compile
Setiap sampel uji Kernel Bench L3 dijalankan dalam container Docker terisolasi dengan 1 GPU H100 80GB, dan akses internet dibatasi ke codebase CUTLASS dan dokumentasi resmi CUDA
Kernel Bench L3 menggunakan batas 500 pemanggilan alat dan penghentian dini setelah 100 giliran tanpa perbaikan, mendeteksi potensi perilaku hacking dengan GPT-5.4(xhigh), dan mengukur timing level kernel dengan CUPTI
MRCR-v2 adalah subset konteks 128K yang mencakup 8 needle dan mengadopsi protokol mrcr_v2 di Google DeepMind eval_hub

Asisten produktivitas kolaboratif

Qwen3.7-Max menargetkan peran rekan kerja tingkat lanjut untuk produktivitas kerja nyata, melakukan sintesis informasi kompleks, analisis dan pemodelan data mendalam, serta pembuatan dokumen dan visualisasi yang layak terbit
Model ini memiliki kompatibilitas dasar dengan harness agen utama dan mendukung perencanaan otonom serta eksekusi berkelanjutan selama berjam-jam pada tugas jangka panjang
Melalui ribuan pemanggilan alat dan puluhan iterasi perbaikan, kualitas output ditingkatkan secara bertahap
Disebutkan mampu menyelesaikan proyek kompleks end-to-end dalam beberapa jam, yang biasanya membutuhkan tim profesional selama 1–2 minggu

Pelatihan agen dan generalisasi

Berdasarkan pendekatan environment scaling yang diperkenalkan di Qwen3.5, Qwen3.7 memperluas kualitas dan keragaman lingkungan pelatihan agen
Pendekatan ini berangkat dari observasi bahwa seperti model bahasa yang melakukan generalisasi dari beragam teks pra-pelatihan, kemampuan agen juga melakukan generalisasi dari beragam lingkungan pelatihan
Semua benchmark dalam evaluasi terdiri dari lingkungan out-of-domain yang sepenuhnya baru dan tidak dimasukkan dalam pelatihan
Environment scaling menciptakan lintasan peningkatan yang jelas dan konsisten, dan Qwen3.7-Max mencapai peringkat rata-rata top-3 yang mendekati Claude-4.6-Opus-Max
Peningkatan performa pada subset benchmark cukup konsisten untuk memprediksi peningkatan relatif pada benchmark yang tersisa dan rata-rata keseluruhan, menunjukkan generalisasi kemampuan alih-alih perbaikan spesifik benchmark
Analisis tambahan tentang dinamika scaling dan metodologi akan dibahas dalam laporan teknis mendatang

Generalisasi lintas harness

Infrastruktur lingkungan rollout memisahkan setiap instance pelatihan menjadi tiga komponen ortogonal: Task, Harness, Verifier
Infrastruktur ini mendukung berbagai harness dan versinya, serta menggunakan lingkungan yang berbasis dunia nyata, bukan proxy sintetis
Desain terpisah ini memungkinkan scaling kombinatorial dengan mengombinasikan tugas yang sama dengan berbagai tipe dan versi harness serta verifier dengan biaya tambahan minimal
Melalui pelatihan RL lintas harness dan lintas verifier, yang mempertemukan tugas yang sama dalam konfigurasi harness berbeda, model didorong untuk mempelajari strategi pemecahan masalah yang dapat digeneralisasi, bukan jalan pintas harness tertentu
Di QwenClawBench dan CoWorkBench, Qwen3.7-Max menunjukkan performa yang kuat dan konsisten terlepas dari harness yang digunakan saat evaluasi

Evolusi diri di lingkungan nyata

Extend Attention adalah operator attention multi-head panjang variabel tingkat produksi di SGLang
Skenario pengujian menangani kernel sensitif terhadap memori dan latensi pada serving LLM, yang menghitung skor attention antara token yang baru dibuat bersama MTP dan prefix KV-cache hingga 32K entri
Implementasi baseline adalah implementasi resmi Triton milik SGLang
Optimalisasi kernel pada arsitektur PPU yang belum dikenal
- Qwen3.7-Max mengoptimalkan kernel ini pada instance ECS dengan T-Head ZW-M890 PPU yang belum pernah dilihat selama pelatihan
- Model memulai tanpa data profiling awal, dokumentasi hardware, atau contoh kernel untuk arsitektur tersebut
- Workspace kosong hanya berisi deskripsi tugas, implementasi SGLang yang ada, dan skrip evaluasi
- Selama sekitar 35 jam eksekusi otonom berkelanjutan, model melakukan 1.158 pemanggilan alat dan 432 evaluasi kernel
- Model secara mandiri melakukan diagnosis kegagalan kompilasi, memperbaiki bug correctness, mengidentifikasi bottleneck berbasis runtime profiling, dan mendesain ulang arsitektur kernel
- Hasil akhirnya adalah peningkatan kecepatan geometric mean 10,0x dibanding baseline Triton pada berbagai workload
- Bahkan setelah 30 jam berlalu, model masih menemukan perbaikan yang bermakna, menunjukkan produktivitas optimalisasi otonom jangka panjang
Lintasan optimalisasi
- Dengan paralelisasi Split-KV yang membagi prefix KV-cache menjadi beberapa thread block per query dan memperkenalkan kernel reduction yang menggabungkan hasil parsial dengan online softmax rescaling, performa meningkat dari 0,33x menjadi 2,58x dalam sekitar 2 jam
- Dengan mengganti cudaMalloc/cudaFree per panggilan menjadi tensor torch::empty yang dipra-alokasikan, menghapus cudaMemcpy sinkron, dan melakukan unroll loop internal 2x, performa meningkat menjadi 5,37x dalam sekitar 2,5 jam
- Dengan mengganti fixed split divisor menjadi heuristik berbasis ukuran workload dan meningkatkan SM wave occupancy pada arsitektur 36-SM, performa meningkat menjadi 6,85x dalam sekitar 3 jam
- Dengan menggabungkan penghapusan shared memory barrier, loading K/V berbasis register, persistent static tensor, batched softmax update, dan pre-scaling Q, performa meningkat menjadi 8,50x pada rentang 3–25 jam
- Kernel khusus MTP γ=4 memproses 4 token query sekaligus per blok dan berbagi loading K/V antar-query, mencapai 10,0x pada rentang 32–35 jam
Perbandingan dalam kondisi yang sama
- GLM 5.1 mencapai 7,3x, Kimi K2.6 5,0x, DeepSeek V4 Pro 3,3x, dan Qwen3.6-Plus 1,1x
- Model yang dihentikan lebih awal secara sukarela mengakhiri sesi setelah menilai tidak bisa lagi maju karena gagal menghasilkan pemanggilan alat selama 5 kali berturut-turut
Pembuatan kernel GPU NVIDIA
- Qwen3.7-Max tidak hanya membuat kernel PPU, tetapi juga menghasilkan kernel tingkat produksi pada berbagai GPU NVIDIA
- Di KernelBench L3, Qwen3.7-Max dapat membuat kernel yang dipercepat pada 96% skenario
- Angka pembandingnya adalah Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54%, dan Qwen3.6-Plus 48%
Karakteristik agen otonom jangka panjang
- Model menunjukkan ketahanan penalaran jangka panjang yang menjaga strategi optimalisasi selama lebih dari 1.000 pemanggilan alat tanpa kehilangan konteks atau mengalami regresi
- Model menunjukkan generalisasi in-context yang membangun kernel kompetitif di arsitektur yang tidak terlihat saat pelatihan berdasarkan umpan balik runtime, bukan pengetahuan hardware yang dihafal

Pemantauan reward hacking

Qwen3.7-Max diintegrasikan ke dalam pemantauan RL untuk tugas rekayasa perangkat lunak, membentuk framework self-monitoring reward hacking dan self-evolution aturan
Selama eksperimen RL lebih dari 80 jam, model secara otonom mencari dan memutar ulang lintasan pelatihan sambil menjalankan lebih dari 10.000 pemanggilan
Model secara sistematis mengidentifikasi pola hacking kandidat, seperti upaya melewati batasan untuk mengakses jawaban di GitHub
Model melakukan verifikasi aturan, penambangan counterexample, dan optimasi iteratif
Melalui beberapa putaran self-evolution aturan, model menambahkan 13 aturan heuristik baru dan secara akurat menandai 1.618 kasus hacking
Proses ini menjamin stabilitas reward RL dan mendorong perbaikan diri berkelanjutan model sebagai agen rekayasa perangkat lunak yang canggih

Perencanaan dan eksekusi jangka panjang dalam manajemen startup

Dalam framework Dynamic Cumulative Survival Games, kompleksitas waktu tugas pelatihan diperluas untuk memperkuat kemampuan perencanaan dan eksekusi jangka panjang
Hal ini meningkatkan konsistensi kebijakan agen pada lintasan pengambilan keputusan berurutan lebih dari seribu langkah, sehingga agen dapat terus membangun hipotesis, menyesuaikan strategi berdasarkan umpan balik lingkungan, serta mengakumulasi pengalaman dan memori jangka panjang
Model mempertahankan ritme eksekusi yang stabil bahkan dalam rentang waktu panjang, serta tahan terhadap degradasi konteks dan penyimpangan instruksi
Hasil YC-Bench
- YC-Bench adalah benchmark yang mensimulasikan seluruh siklus hidup startup selama 1 tahun
- Agen harus mempertahankan margin laba di tengah biaya tenaga kerja yang meningkat sambil membuat keputusan selama ratusan ronde, seperti manajemen SDM, peninjauan kontrak, dan identifikasi pelanggan berbahaya
- Qwen3.7-Max mencapai pendapatan total 2,08 juta dolar, 2x dari 1,05 juta dolar milik Qwen3.6-Plus dan 5,9x dari 352 ribu dolar milik Qwen3.5-Plus
- Jumlah tugas yang diselesaikan adalah 237
- Model melakukan pencarian prospek pelanggan, mengidentifikasi jebakan berbahaya dan memasukkannya ke daftar hitam, memprioritaskan sumber pendapatan yang stabil, dan melakukan pemulihan otonom saat krisis menengah
- Pada akhirnya, model berkonvergensi ke loop eksekusi yang stabil dan sangat efisien

Membangun dengan Qwen3.7

Qwen3.7-Max akan segera tersedia melalui Alibaba Cloud Model Studio, dan dapat diintegrasikan ke framework agen populer serta asisten coding
Penggunaan API
- Qwen3.7-Max mendukung fitur preserve_thinking yang mempertahankan isi pemikiran dari semua giliran sebelumnya di dalam pesan, dan direkomendasikan untuk tugas agen
- Alibaba Cloud Model Studio mendukung protokol standar industri seperti API chat completions·responses yang kompatibel dengan spesifikasi OpenAI, serta antarmuka API yang kompatibel dengan Anthropic
- DASHSCOPE_API_KEY menggunakan API key yang diperoleh dari konsol Model Studio
- DASHSCOPE_BASE_URL bersifat opsional, dan untuk URL default API mode kompatibel dapat menggunakan https://dashscope-intl.aliyuncs.com/compatible-mode/v1
- URL Beijing adalah https://dashscope.aliyuncs.com/compatible-mode/v1, URL Singapura adalah https://dashscope-intl.aliyuncs.com/compatible-mode/v1, dan URL Virginia AS adalah https://dashscope-us.aliyuncs.com/compatible-mode/v1
- Informasi tambahan tersedia di dokumentasi API
Coding frontend
- Qwen3.7-Max dapat membuat aplikasi web interaktif dari satu prompt, termasuk scene 3D Three.js, animasi Canvas, layout halaman penuh, dan SVG dinamis
- Contoh prompt meminta implementasi HTML dengan efek rotasi 3D yang mendeteksi telapak tangan membuka/mengepal lewat kamera untuk mengendalikan kontraksi dan penyebaran kumpulan partikel, serta membentuk teks hello, world dan I’am Qwen sesuai gesture jari 1 dan 2
Asisten perkantoran
- Qwen3.7-Max dapat berfungsi sebagai asisten perkantoran cerdas melalui integrasi alat
- Dalam contoh, model membaca aturan format skripsi universitas lalu memformat ulang draf yang berantakan melalui pemanggilan alat office-cli secara otonom
- Model memperbaiki tata letak halaman, gaya judul, font, margin, daftar isi, dan format referensi
- Makalah contoh dibuat oleh AI untuk demo
Agen navigasi dunia fisik
- Qwen3.7-Max dapat mengendalikan anjing robot melalui pemanggilan alat
- Model melakukan pemahaman fisik, perencanaan, memori, dan pengambilan keputusan di lingkungan fisik
- Digunakan harness agen robotika Qwen-RobotClaw, model berbasis navigasi Qwen-RobotNav, dan berbagai alat visi yang dibangun dengan model Qwen-plus
- Panel kiri pada demo menunjukkan alur interaksi pemanggilan alat agen selama 20 menit di dunia fisik, bagian tengah menunjukkan sudut pandang orang pertama di sepanjang lintasan robot berkaki empat, dan bagian kanan menunjukkan memori jangka panjang agen
Integrasi asisten coding
- Qwen3.7-Max diintegrasikan ke framework agen populer dan asisten coding
- Claude Code
  - Qwen API mendukung protokol Anthropic API sehingga dapat digunakan langsung di Claude Code
  - Atur ANTHROPIC_MODEL dan ANTHROPIC_SMALL_FAST_MODEL ke qwen3.7-max, dan atur ANTHROPIC_BASE_URL ke https://dashscope-intl.aliyuncs.com/apps/anthropic
- OpenClaw
  - OpenClaw dapat dihubungkan melalui Model Studio
  - Setelah mengatur DASHSCOPE_API_KEY, jalankan openclaw dashboard, lalu tetapkan modelstudio/qwen3.7-max sebagai model default di ~/.openclaw/openclaw.json
  - Contoh konfigurasi mencakup contextWindow 1000000, maxTokens 65536, dan reasoning true
- Qwen Code
  - Qwen Code dioptimalkan secara mendalam untuk seri Qwen
  - Instal dengan npm install -g @qwen-code/qwen-code@latest lalu jalankan dengan perintah qwen

3 komentar

beepp 2026-05-21

Sebelumnya saya sempat khawatir setelah melihat tulisan bahwa para personel kunci keluar, tapi aktivitasnya tetap aktif juga ya

emptybynature 2026-05-22

Bagaimanapun, ini industri yang saling mendistilasi dan memakai ulang, jadi siapa pergi ke mana sebenarnya tidak terlalu penting. Situasinya mengarah ke perang harga, jadi pada akhirnya perusahaan yang punya amunisi paling banyaklah yang akan menang.

GN⁺ 2026-05-21

Pendapat Hacker News

Dalam AA-omniscience, rasio respons non-halusinasi ada di level tertinggi, lebih baik daripada Opus 4.7, Gemini 3.1 Pro, dan GPT5.5. Selamat untuk timnya
- Yang dirujuk adalah tautan ini: https://artificialanalysis.ai/evaluations/omniscience?models...
  Saya harus menambahkannya sendiri ke chart, bukan muncul di tampilan default, dan saya penasaran apakah ini tingkat halusinasi terendah di dataset itu
- Kalau sudah banyak memakai model Tiongkok kelas atas seperti ini, pertanyaan terbesarnya adalah bagaimana efisiensi token-nya
  Misalnya, saat menjalankan Step 3.5 Flash secara lokal, secara umum kemampuannya mengejutkan bagus, tetapi efisiensi token-nya terlalu buruk, jadi dalam waktu nyata model itu kalah dari sebagian besar model lain. Bahkan setelah menyisipkan dukungan MTP ke llama.cpp dengan hack, di Spark kecepatannya cuma naik dari 20tk/s ke 30tk/s, dan meski dilatih dengan tiga head, MTP 2 adalah titik yang paling masuk akal
  Model DeepSeek dan Qwen 3.5 Plus juga mirip, jadi dibandingkan Opus, terutama GPT 5.5, mereka memakai jauh lebih banyak token untuk menghasilkan jawaban yang sama
  Saya benar-benar berharap Qwen 3.7 membaik di bagian ini dan tidak sabar ingin mencobanya. Sebagai catatan, menjalankan DeepSeek v4 Flash di Spark terasa benar-benar luar biasa, dan kalau antirez melihat ini saya ingin bilang terima kasih
- Bahwa “rasio respons non-halusinasi” itu sempurna mungkin tidak terlalu berarti dengan sendirinya. Karena tes seperti ini juga bisa mengandung halusinasi buatan manusia
  Pada akhirnya, itu berarti seberapa cocok model tersebut dengan keyakinan pihak pembuat tes, yang bisa saja benar atau salah
- Benar-benar hebat, dan kemajuannya mengesankan. Saya juga penasaran seberapa banyak mereka memakai chip buatan sendiri untuk pelatihan
- Saya penasaran di titik mana transisi keadaan kemampuan terjadi. Apakah di 5%, atau 1%
Tadi malam saya hampir menyentuh batas mingguan Claude Code, jadi saya menyuruh Claude menyiapkan Qwen3.6 dengan llama.cpp dan OpenCode. Jujur saja ini alternatif gratis yang sangat bagus untuk Claude Code, dan untuk banyak tugas yang lebih kecil dan tidak terlalu rumit, kualitasnya sudah lebih dari cukup
Saya juga tidak sabar mencoba versi baru ini. Sangat mengesankan bahwa model open-source bisa sedekat ini dengan garis depan
- Penasaran dijalankan di mesin dan model seperti apa
  Minggu lalu saya mencoba qwen3.6-27b Q6_k GUFF di M2 MacBook Pro 32GB dengan llama.cpp dan LM Studio, dan keduanya nyaris tidak mencapai 1 token per detik
  Saya tidak tahu kecepatan seperti apa yang seharusnya diharapkan. Dua tahun lalu saat menjalankan model keluarga Llama 3 34b lewat llama.cpp, saya ingat masih bisa dapat beberapa token per detik, jadi saya bingung apakah konfigurasi saya benar-benar salah atau ekspektasi saya yang tidak realistis
  Saya juga bertanya-tanya apakah qwen 3.x memang lebih lambat karena suatu alasan. Saya juga penasaran apakah ini arsitektur mixture-of-experts (MoE). Saya tidak berharap respons instan, tetapi pada kecepatan sekarang ini memang sulit dipakai
- Versi baru ini bukan sesuatu yang bisa dijalankan secara lokal. Ini model cloud, dan bahkan kalau bobotnya dirilis pun mungkin ukurannya terlalu besar
- Saya penasaran model persisnya yang dipakai apa. Parameter dan kuantisasi apa, dan hardwarenya juga apa
  Saya juga ingin tahu apakah memakai MCP atau alat lain untuk optimasi performa seperti context-mode atau dynamic context pruning. Saya sudah lumayan banyak memakai model lokal, tetapi baru mulai dengan opencode, dan meskipun hasilnya belum bagus, saya berharap setidaknya bagus untuk tugas-tugas sederhana. Ada juga masalah opencode yang baru saya pasang memakai CPU iTerm 100% bahkan saat idle
- Sayangnya Qwen Max biasanya model tertutup
- Saya penasaran Qwen 3.6 terasa seperti apa dibandingkan Sonnet 4.6. Soalnya secara realistis itu yang paling sering dipakai
  Kalau semua pekerjaan terkait kode saya kerjakan dengan Opus 4.7, tagihan bulanan saya akan 10~20 kali lebih mahal dibanding saat masih bisa memakai Sonnet
Kalau mereka mulai merilis lebih banyak model proprietari, saya benar-benar berharap mereka bermitra dengan salah satu hyperscaler besar di AS agar model-model seperti ini bisa dipakai lewat penyedia yang berbasis di AS
Saya paham sekali kenapa itu mungkin tidak masuk akal atau tidak sesuai dengan kepentingan mereka. Benar juga bahwa AS pun sama sekali tidak otomatis melakukan hal yang sebaliknya. Tetap saja, akan bagus kalau saya bisa benar-benar mengujinya pada workload produksi nyata
- Kecuali hyperscaler AS juga melakukan hal yang sama ke arah sebaliknya, saya berharap situasi sekarang tetap seperti ini. Kalau semua orang senang berbagi, maka berbagi harus terjadi dua arah, dan kalau tidak, hyperscaler AS bisa tetap terisolasi sendiri seperti selama ini
- Qwen3.6-Plus tersedia di Fireworks
- Alibaba Cloud punya data center di Meksiko
- Karena fireworks meng-host Qwen 3.6 Plus, tampaknya mereka juga bisa menghadirkan Qwen 3.7 Plus
- ChatLLM mendukung QWEN, dan saya penasaran apakah ini bisa dianggap aman dari sudut pandang AS
Angkanya sendiri sangat bagus. Tapi saya tetap tidak mengerti kenapa tulisan seperti ini tidak membandingkannya dengan model pesaing terbaru. Orang-orang pasti sadar juga
- Tidak ada pihak yang akan merilis angka yang membuat mereka terlihat lebih buruk daripada pesaing
  OpenAI dan Anthropic juga sama, sering memakai dataset evaluasi yang berbeda-beda
- Kalau rentangnya cuma kenaikan versi minor, menurut saya masih bisa dimaklumi. Sebagai catatan, belakangan ini di LLM entah kenapa x.5 praktis dipakai seperti kenaikan versi mayor
  Tulisan seperti ini juga tidak muncul begitu saja, bahkan untuk LLM. Kalau Anda punya set benchmark target untuk model sendiri, mempertahankan set model pembanding yang bisa dibandingkan secara berdampingan juga merupakan beban pemeliharaan tersendiri
- Mungkin logikanya agar tidak terlihat bahwa mereka tertinggal sekitar N bulan dari state-of-the-art terbaru
  Secara realistis, saya rasa mereka berharap pembaca tidak menangkap detail-detail itu
  Model Qwen sangat bagus untuk ukuran open-weight, tetapi rilisan sebelumnya dalam penggunaan nyata tidak sebaik angka benchmark-nya. Karena mereka tahu optimasi angka benchmark itu efektif, ya mereka mengarah ke sana
- Saya rasa ini bagian dari mengatur ekspektasi. Bisa juga ada keadaan bahwa mereka menyusun distillation atau evaluation harness dengan model tertentu
  Kalau Anda bilang bisa dibandingkan dengan 4.7, maka model acuan evaluasi itu otomatis menempel di kepala orang
- Jujur saja, Opus-4.6 versi awal jauh lebih baik daripada yang sekarang disajikan sebagai 4.7. Kalau bisa bekerja di level itu saja, saya siap pindah total
Saya penasaran apakah ini tipe yang seminggu kemudian akan ada rilis di Hugging Face. Atau memang sudah pasti tahu bahwa ini akan tetap eksklusif
- Tolong koreksi kalau saya salah, tapi setahu saya model Max biasanya tidak dibuka untuk publik
Saya berharap ada lebih banyak rilis open-weight dari Qwen. Terutama 122B dan 397B yang paling saya tunggu
- Betul. Rentang sekitar 60~150B saat ini adalah titik yang sangat bagus untuk hardware prosumer, jadi akan menyenangkan kalau ada model seperti 120b-a14b
- Secara pribadi saya malah lebih menantikan model yang dikuantisasi lebih rendah seperti 9B
- Saya lebih menantikan qwen3.7 9b dan 72b. Biasanya performa per ukurannya sangat bagus
- Saya masih menunggu qwem image-edit 2.0 open-weight
- Aduh. Saya baru mulai mencoba-coba hal seperti ini, dan lingkungan saya cuma desktop gaming biasa dengan 12GB 3060 dan RAM 32GB
  Begitu lewat Qwen 9B saja, mesin saya berisiko macet total
Di benchmark tidak ada Opus 4.7, GPT5.5, Gemini Flash 3.5
Saya memakai pi agent dan ingin mencoba model Qwen yang di-host. Penasaran opsi bagusnya apa
Penyedia resminya tidak mencantumkan Alibaba. Saya juga penasaran apakah layanan seperti OpenRouter cukup cepat. Sebagai catatan, DeepSeek v4 sangat dibatasi di layanan proxy seperti ini
- Saya banyak memakai qwen3.6-max-preview di pi + openrouter. Sejauh ini saya belum mengalami masalah stabilitas atau performa
Saya baru mulai mencoba-coba LLM lokal dan jujur cukup terkesan. Saya memakai workstation laptop dengan NVIDIA A1000 (VRAM 6GB) dan RAM 96GB
GPU hampir tidak pernah saya pakai, paling sesekali untuk desain CAD atau machine learning berbasis OpenCV. Saya mencoba menjalankan llama3:latest dan ternyata berjalan cukup cepat, jadi saya penasaran bagaimana Qwen akan berjalan di sistem saya
Pola yang paling saya percaya adalah menambahkan artefak verifikasi kecil untuk setiap tindakan eksternal. Agent sering gagal lebih cepat bukan karena kurang dalam penalaran, melainkan karena state drift diam-diam
- Bisa dijelaskan lebih detail soal ini?

Qwen3.7-Max: Frontier Agen

Evaluasi performa

Agen coding

Agen umum

Penalaran

Kemampuan umum dan multibahasa

Kondisi evaluasi dan detail benchmark

Asisten produktivitas kolaboratif

Pelatihan agen dan generalisasi

Generalisasi lintas harness

Evolusi diri di lingkungan nyata

Optimalisasi kernel pada arsitektur PPU yang belum dikenal

Lintasan optimalisasi

Perbandingan dalam kondisi yang sama

Pembuatan kernel GPU NVIDIA

Karakteristik agen otonom jangka panjang

Pemantauan reward hacking

Perencanaan dan eksekusi jangka panjang dalam manajemen startup

Hasil YC-Bench

Membangun dengan Qwen3.7

Penggunaan API

Coding frontend

Asisten perkantoran

Agen navigasi dunia fisik

Integrasi asisten coding

Claude Code

OpenClaw

Qwen Code

Bacaan terkait

3 komentar

Pendapat Hacker News