7 poin oleh GN⁺ 2026-01-27 | 1 komentar | Bagikan ke WhatsApp
  • Model berfokus pada penalaran terbaru yang meningkatkan performa di berbagai area seperti pengetahuan faktual, penalaran kompleks, dan penyelarasan dengan preferensi manusia melalui reinforcement learning skala besar dan perluasan parameter
  • Mencatat hasil yang sebanding dengan GPT-5.2-Thinking, Claude-Opus-4.5, dan Gemini 3 Pro atau bahkan melampauinya di beberapa area pada 19 benchmark
  • Melalui kemampuan penggunaan alat adaptif, model dapat secara otomatis memanggil pencarian, memori, dan code interpreter saat percakapan berlangsung, serta mendukung pengurangan halusinasi dan akses ke informasi real-time
  • Dengan strategi test-time scaling, model mengurangi perhitungan berulang selama penalaran, dan meningkatkan efisiensi melalui mekanisme akumulasi pengalaman berbasis refleksi diri
  • Tersedia langsung melalui Qwen Chat dan API, serta kompatibel dengan API OpenAI dan Anthropic, sehingga mudah diintegrasikan pengembang ke workflow yang sudah ada

Ikhtisar Qwen3-Max-Thinking

  • Qwen3-Max-Thinking adalah model penalaran flagship terbaru dalam seri Qwen, yang meningkatkan performa dengan memanfaatkan reinforcement learning dan sumber daya komputasi skala besar
    • Ditingkatkan di berbagai dimensi seperti pengetahuan faktual, penalaran kompleks, mengikuti instruksi, penyelarasan dengan preferensi manusia, dan kemampuan agen
    • Mencapai performa setara dengan GPT-5.2-Thinking, Claude-Opus-4.5, dan Gemini 3 Pro pada 19 benchmark standar
  • Diperkuat oleh dua inovasi utama
    • Penggunaan alat adaptif (adaptive tool-use): secara otomatis memanggil pencarian dan code interpreter saat diperlukan
    • Test-time scaling tingkat lanjut: memanfaatkan komputasi tambahan selama penalaran secara efisien untuk mencapai performa yang melampaui Gemini 3 Pro

Ringkasan performa benchmark

  • Di area pengetahuan (knowledge), mencatat skor yang mendekati model papan atas seperti MMLU-Pro 85.7 dan C-Eval 93.7
  • Di bidang STEM, mencatat GPQA 87.4 dan HLE 30.2; lebih rendah dari beberapa model, tetapi tetap menjaga performa yang seimbang
  • Pada benchmark penalaran (reasoning), mencatat angka tinggi seperti HMMT Nov 25 94.7 dan LiveCodeBench v6 85.9
  • Pada kategori mengikuti instruksi dan alignment (instruction following & alignment), mencapai tingkat tertinggi dengan Arena-Hard v2 90.2
  • Pada tool use dan agentic search, juga menunjukkan beberapa hasil yang unggul dibanding model pesaing

Kemampuan penggunaan alat adaptif

  • Tanpa perlu pengguna memilih alat secara langsung, model secara otomatis memanfaatkan Search, Memory, dan Code Interpreter
    • Search dan Memory membantu mengurangi halusinasi serta menyediakan akses informasi real-time dan respons yang dipersonalisasi
    • Code Interpreter mendukung pemecahan masalah kompleks melalui eksekusi kode dan penalaran berbasis komputasi
  • Kemampuan ini diperkuat melalui proses pelatihan tambahan yang menggabungkan feedback berbasis aturan dan berbasis model
  • Hasilnya adalah pengalaman percakapan interaktif yang alami dan kuat

Strategi test-time scaling

  • Metode untuk meningkatkan performa dengan mendistribusikan komputasi tambahan selama penalaran, dan lebih efisien dibanding sampling paralel sederhana
  • Pendekatan yang diusulkan menggunakan metode multi-round berbasis akumulasi pengalaman dan refleksi diri (self-reflective multi-round)
    • Melalui mekanisme “take-experience”, model mengekstrak wawasan inti dari putaran sebelumnya
    • Tidak mengulang kesimpulan yang sudah diperoleh, melainkan berfokus pada ketidakpastian yang belum terselesaikan
  • Mencapai efisiensi konteks yang lebih tinggi dengan konsumsi token yang sama
    • Meningkat dari GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, dan HLE(w/ tools) 55.8→58.3

Pengembangan dan integrasi API

  • Tersedia langsung di Qwen Chat, dengan nama model qwen3-max-2026-01-23
  • Dapat digunakan setelah membuat API key melalui Alibaba Cloud Model Studio
  • Sepenuhnya kompatibel dengan API OpenAI, dan disertai contoh kode Python
    • Mode penalaran dapat diaktifkan melalui opsi enable_thinking
  • Juga kompatibel dengan protokol API Anthropic, sehingga bekerja sama di lingkungan Claude Code
    • Dapat dijalankan dengan perintah claude setelah mengatur environment variable

1 komentar

 
GN⁺ 2026-01-27
Komentar Hacker News
  • Ada pertanyaan tentang sebuah foto terkenal, tetapi sistem mendeteksinya sebagai 'konten yang tidak pantas' dan mengembalikan error. Pengguna penasaran mengapa gambar seperti ini penting secara internasional

    • Ini tampaknya karena mekanisme keamanan yang terpisah. Faktanya, model-model Qwen sebelumnya saat dilayani di luar Tiongkok bisa membahas topik Tiananmen dengan bebas. Misalnya, Qwen3 235B A22B Instruct 2507 menjelaskan secara rinci konteks historis foto 'Tank Man' dan situasi sensor di Tiongkok. Ada juga analisis bahwa sensor itu sendiri justru makin memperkuat simbolismenya
    • Untuk perusahaan Tiongkok, mengikuti sensor adalah kewajiban hukum jadi ini bukan hal yang mengejutkan. Namun, menarik untuk melihat bagaimana batasan seperti ini akan memengaruhi area nonpolitik seperti pekerjaan coding. Sebenarnya, Anthropic di AS juga punya batasan dalam bentuk 'alignment' untuk mencegah tindakan ilegal
    • LLM dari AS juga mengalami masalah sensor yang serupa. Hanya saja objek sensornya berbeda
    • Ada yang penasaran apakah ada peneliti yang mempelajari kemungkinan penyisipan perilaku jahat (backdoor) pada LLM. Beberapa paper menyebut bahwa hanya dengan sedikit contoh berbahaya, model bisa dilatih untuk merespons frasa 'trigger' tertentu. Bahkan, dengan memanipulasi file tokenizer, efek samping seperti kenaikan biaya API atau pelemahan filter keamanan juga bisa dipicu. Rasanya ini memang sudah saatnya dibahas
    • Karena topik seperti ini sering membuat diskusi melenceng, ada juga pendapat bahwa sekarang lebih baik mengarahkan percakapan ke aspek teknis model AI Tiongkok
  • Jadi penasaran dengan pemakaian token model-model akhir-akhir ini. 'Peningkatan kemampuan bernalar' atau 'bertambahnya penggunaan alat' tampaknya bukan semata perbaikan model itu sendiri, melainkan cara mengarahkan model dengan memakai lebih banyak token. Jadi strukturnya bukan "dengan sedikit dapat lebih banyak", tetapi "dengan lebih banyak dapat lebih banyak"

    • Ada yang menganggap ini menunjukkan batas realistis dari AGI (kecerdasan umum buatan). Jika butuh sumber daya komputasi yang terlalu besar, maka sekalipun ada terobosan teknis, dunia nyata mungkin tidak akan banyak berubah untuk sementara waktu. Pada akhirnya, sumber daya komputasi untuk penalaran bisa menjadi bottleneck
    • Ada yang bertanya ke Gemini soal konsumsi daya dibanding pencarian biasa, dan jawabannya ternyata pencarian AI lebih efisien daripada pencarian tradisional. Selain itu, dari paper arXiv yang direkomendasikan Perplexity, On the Slow Death of Scaling karya Sara Hooker dianggap berkesan. Paper ini menunjukkan kasus di mana model kecil mengungguli model besar, dan berargumen bahwa perkembangan ke depan akan lebih bergantung pada inovasi algoritmik daripada daya komputasi
    • Terasa perlu ada metrik baru untuk menilai perkembangan model. Bukan cuma skor benchmark sederhana, tetapi juga penggunaan GPU, kecepatan, biaya, dan sebagainya harus dipertimbangkan bersama
    • Ada pendapat bahwa konsep Pareto frontier cocok untuk menjelaskan keseimbangan antara efisiensi dan performa ini
    • Beberapa model menunjukkan proses penalaran yang sangat boros token, sehingga pada praktiknya dianggap tidak efisien
  • Ada yang penasaran mengapa saat fitur pencarian dimatikan performanya di bawah Opus 4.5, tetapi saat dinyalakan malah lebih baik. Sampai muncul dugaan apakah kualitas konten internet Tiongkok memang lebih bagus

    • Itu dianggap terlalu jauh. Kemungkinan besar hanya karena kinerja pencarian dan kualitas integrasi yang lebih baik. Modelnya mendukung multibahasa, jadi bisa menangani situs web dari seluruh dunia dengan baik
    • Ada yang memakai Kagi Assistant dan puas karena bisa memfilter agar hanya mencari materi akademik. Namun, ada kekhawatiran bahwa suatu hari bahkan paper akademik pun akan tercemar oleh hasil buatan AI. Meski begitu, tetap ada keyakinan bahwa pada akhirnya solusi akan ditemukan
    • Ada juga candaan, "Mungkin karena tidak ada Reddit?"
  • Ada yang penasaran dengan kebijakan harga model Qwen. Apakah sama seperti Qwen Max, dan mengapa harga di dalam Tiongkok jauh lebih murah
    Halaman model Alibaba Cloud

    • Di dalam Tiongkok, perang harga AI sangat sengit, dan pemerintah menurunkan biaya infrastruktur lewat voucher komputasi dan subsidi
      Artikel terkait
    • Kemungkinan besar ini juga merupakan subsidi untuk mendukung developer domestik
    • Biaya energi yang lebih murah juga mungkin menjadi salah satu faktor
    • Ada yang memperkenalkan konsep surveillance pricing berupa harga yang berubah berdasarkan wilayah dan kondisi pencarian, lalu membagikan tautan video terkait
  • Di HN, Opus 4.5 selama ini praktis dianggap sebagai model standar, dan model-model Tiongkok dinilai tertinggal lebih dari 8 bulan. Ada yang penasaran apakah model kali ini bisa mempersempit jarak itu

    • Berdasarkan benchmark yang dipublikasikan, tampaknya masih tertinggal sekitar 6 bulan
    • Secara pribadi ada yang merasa GPT-5.2 lebih unggul dan lebih murah. Bias Claude Code di HN mungkin saja bentuk rasionalisasi diri dari para pelanggannya. Meski begitu, Opus 4.5 memang cepat dan berkualitas tinggi sehingga sangat enak dipakai dalam praktik.
      Sementara itu, Gemini 3 Pro/Flash masih satu tingkat di bawah, tetapi dibanding tahun lalu sudah jauh lebih cepat dan murah. Pada akhirnya, benchmark hanyalah referensi, sedangkan kualitas yang benar-benar terasa tetap subjektif
  • Musim gugur tahun lalu, ada yang memakai Qwen3-coder lewat agen CLI trae untuk proyek Rust, dan kemampuan pembuatan kode serta refactoring-nya dinilai lebih baik daripada Gemini 2.5 Pro maupun Claude Opus 3.5.
    Bahkan penambahan pemanggilan IPC shared memory Linux dan optimasi SIMD x86_64 pun ditangani dengan baik. Namun, karena memakai cache token dan jendela konteks besar, biayanya mencapai ratusan dolar per bulan

  • Karena tidak terlihat ada tautan Hugging Face, ada yang penasaran apakah Qwen sudah tidak lagi merilis model terbuka

    • Versi Max memang sejak awal adalah model tertutup
    • Tidak semua model didistribusikan dengan bobot terbuka, dan model kali ini juga tampaknya belum open-weight
  • Ada juga yang bertanya apakah model ini tersedia di Open Router. Mereka menantikan perbandingan dengan Gemini 3 Flash
    Mafia Arena

  • Benchmark LLM terasa seperti wawancara developer. Bisa menyelesaikan masalah algoritma terdistribusi yang rumit, tetapi dalam pekerjaan nyata justru ada jurang seperti menambahkan satu tombol sambil lupa memakai ulang kelas Tailwind

  • Ada pertanyaan tentang ukuran model

    • Qwen2.5 dilatih dengan 18 triliun token, tetapi Qwen3 hampir dua kali lipat yaitu 36 triliun token. Mencakup 119 bahasa dan dialek
      Blog resmi