- Model berfokus pada penalaran terbaru yang meningkatkan performa di berbagai area seperti pengetahuan faktual, penalaran kompleks, dan penyelarasan dengan preferensi manusia melalui reinforcement learning skala besar dan perluasan parameter
- Mencatat hasil yang sebanding dengan GPT-5.2-Thinking, Claude-Opus-4.5, dan Gemini 3 Pro atau bahkan melampauinya di beberapa area pada 19 benchmark
- Melalui kemampuan penggunaan alat adaptif, model dapat secara otomatis memanggil pencarian, memori, dan code interpreter saat percakapan berlangsung, serta mendukung pengurangan halusinasi dan akses ke informasi real-time
- Dengan strategi test-time scaling, model mengurangi perhitungan berulang selama penalaran, dan meningkatkan efisiensi melalui mekanisme akumulasi pengalaman berbasis refleksi diri
- Tersedia langsung melalui Qwen Chat dan API, serta kompatibel dengan API OpenAI dan Anthropic, sehingga mudah diintegrasikan pengembang ke workflow yang sudah ada
Ikhtisar Qwen3-Max-Thinking
- Qwen3-Max-Thinking adalah model penalaran flagship terbaru dalam seri Qwen, yang meningkatkan performa dengan memanfaatkan reinforcement learning dan sumber daya komputasi skala besar
- Ditingkatkan di berbagai dimensi seperti pengetahuan faktual, penalaran kompleks, mengikuti instruksi, penyelarasan dengan preferensi manusia, dan kemampuan agen
- Mencapai performa setara dengan GPT-5.2-Thinking, Claude-Opus-4.5, dan Gemini 3 Pro pada 19 benchmark standar
- Diperkuat oleh dua inovasi utama
- Penggunaan alat adaptif (adaptive tool-use): secara otomatis memanggil pencarian dan code interpreter saat diperlukan
- Test-time scaling tingkat lanjut: memanfaatkan komputasi tambahan selama penalaran secara efisien untuk mencapai performa yang melampaui Gemini 3 Pro
Ringkasan performa benchmark
- Di area pengetahuan (knowledge), mencatat skor yang mendekati model papan atas seperti MMLU-Pro 85.7 dan C-Eval 93.7
- Di bidang STEM, mencatat GPQA 87.4 dan HLE 30.2; lebih rendah dari beberapa model, tetapi tetap menjaga performa yang seimbang
- Pada benchmark penalaran (reasoning), mencatat angka tinggi seperti HMMT Nov 25 94.7 dan LiveCodeBench v6 85.9
- Pada kategori mengikuti instruksi dan alignment (instruction following & alignment), mencapai tingkat tertinggi dengan Arena-Hard v2 90.2
- Pada tool use dan agentic search, juga menunjukkan beberapa hasil yang unggul dibanding model pesaing
Kemampuan penggunaan alat adaptif
- Tanpa perlu pengguna memilih alat secara langsung, model secara otomatis memanfaatkan Search, Memory, dan Code Interpreter
- Search dan Memory membantu mengurangi halusinasi serta menyediakan akses informasi real-time dan respons yang dipersonalisasi
- Code Interpreter mendukung pemecahan masalah kompleks melalui eksekusi kode dan penalaran berbasis komputasi
- Kemampuan ini diperkuat melalui proses pelatihan tambahan yang menggabungkan feedback berbasis aturan dan berbasis model
- Hasilnya adalah pengalaman percakapan interaktif yang alami dan kuat
Strategi test-time scaling
- Metode untuk meningkatkan performa dengan mendistribusikan komputasi tambahan selama penalaran, dan lebih efisien dibanding sampling paralel sederhana
- Pendekatan yang diusulkan menggunakan metode multi-round berbasis akumulasi pengalaman dan refleksi diri (self-reflective multi-round)
- Melalui mekanisme “take-experience”, model mengekstrak wawasan inti dari putaran sebelumnya
- Tidak mengulang kesimpulan yang sudah diperoleh, melainkan berfokus pada ketidakpastian yang belum terselesaikan
- Mencapai efisiensi konteks yang lebih tinggi dengan konsumsi token yang sama
- Meningkat dari GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, dan HLE(w/ tools) 55.8→58.3
Pengembangan dan integrasi API
- Tersedia langsung di Qwen Chat, dengan nama model
qwen3-max-2026-01-23
- Dapat digunakan setelah membuat API key melalui Alibaba Cloud Model Studio
- Sepenuhnya kompatibel dengan API OpenAI, dan disertai contoh kode Python
- Mode penalaran dapat diaktifkan melalui opsi
enable_thinking
- Juga kompatibel dengan protokol API Anthropic, sehingga bekerja sama di lingkungan Claude Code
- Dapat dijalankan dengan perintah
claude setelah mengatur environment variable
1 komentar
Komentar Hacker News
Ada pertanyaan tentang sebuah foto terkenal, tetapi sistem mendeteksinya sebagai 'konten yang tidak pantas' dan mengembalikan error. Pengguna penasaran mengapa gambar seperti ini penting secara internasional
Jadi penasaran dengan pemakaian token model-model akhir-akhir ini. 'Peningkatan kemampuan bernalar' atau 'bertambahnya penggunaan alat' tampaknya bukan semata perbaikan model itu sendiri, melainkan cara mengarahkan model dengan memakai lebih banyak token. Jadi strukturnya bukan "dengan sedikit dapat lebih banyak", tetapi "dengan lebih banyak dapat lebih banyak"
Ada yang penasaran mengapa saat fitur pencarian dimatikan performanya di bawah Opus 4.5, tetapi saat dinyalakan malah lebih baik. Sampai muncul dugaan apakah kualitas konten internet Tiongkok memang lebih bagus
Ada yang penasaran dengan kebijakan harga model Qwen. Apakah sama seperti Qwen Max, dan mengapa harga di dalam Tiongkok jauh lebih murah
Halaman model Alibaba Cloud
Artikel terkait
Di HN, Opus 4.5 selama ini praktis dianggap sebagai model standar, dan model-model Tiongkok dinilai tertinggal lebih dari 8 bulan. Ada yang penasaran apakah model kali ini bisa mempersempit jarak itu
Sementara itu, Gemini 3 Pro/Flash masih satu tingkat di bawah, tetapi dibanding tahun lalu sudah jauh lebih cepat dan murah. Pada akhirnya, benchmark hanyalah referensi, sedangkan kualitas yang benar-benar terasa tetap subjektif
Musim gugur tahun lalu, ada yang memakai Qwen3-coder lewat agen CLI trae untuk proyek Rust, dan kemampuan pembuatan kode serta refactoring-nya dinilai lebih baik daripada Gemini 2.5 Pro maupun Claude Opus 3.5.
Bahkan penambahan pemanggilan IPC shared memory Linux dan optimasi SIMD x86_64 pun ditangani dengan baik. Namun, karena memakai cache token dan jendela konteks besar, biayanya mencapai ratusan dolar per bulan
Karena tidak terlihat ada tautan Hugging Face, ada yang penasaran apakah Qwen sudah tidak lagi merilis model terbuka
Ada juga yang bertanya apakah model ini tersedia di Open Router. Mereka menantikan perbandingan dengan Gemini 3 Flash
Mafia Arena
lmarena.ai, dashboard safe.ai,
Clock Draw Test, EQBench, OCR Arena
Benchmark LLM terasa seperti wawancara developer. Bisa menyelesaikan masalah algoritma terdistribusi yang rumit, tetapi dalam pekerjaan nyata justru ada jurang seperti menambahkan satu tombol sambil lupa memakai ulang kelas Tailwind
Ada pertanyaan tentang ukuran model
Blog resmi