5 poin oleh GN⁺ 10 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Dirilis sebagai model multimodal dense 27 miliar parameter, dengan dukungan mode thinking·non-thinking serta pemrosesan gambar·video dalam satu checkpoint terintegrasi
  • Performa agentic coding disebut melampaui flagship open-source generasi sebelumnya Qwen3.5-397B-A17B di berbagai benchmark coding utama, dan bahkan mengungguli model dengan total parameter hingga 15 kali lebih besar
  • Mencatat SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2, serta turut merilis angka evaluasi penalaran teks dan STEM seperti GPQA Diamond 87.8 dan AIME26 94.1
  • Dengan mengadopsi arsitektur dense, model ini tidak memiliki kompleksitas routing MoE dan lebih sederhana untuk dideploy, serta menyediakan dukungan open weights, API, jalur penggunaan instan di Qwen Studio, dan integrasi dengan OpenClaw·Qwen Code·Claude Code
  • Menunjukkan bahwa model dense yang terlatih dengan baik dapat melampaui generasi sebelumnya yang jauh lebih besar dalam tugas inti pengembang, sekaligus memperluas agentic coding di lini Qwen3.6

Ringkasan

  • Qwen3.6-27B dirilis sebagai model multimodal dense dengan 27 miliar parameter, serta mendukung mode thinking dan non-thinking multimodal sekaligus
  • Dalam performa agentic coding, model ini melampaui flagship open-source generasi sebelumnya, Qwen3.5-397B-A17B, di berbagai benchmark coding utama
  • Dengan mengadopsi arsitektur dense tanpa kompleksitas routing MoE, deployment menjadi lebih sederhana, sambil tetap menawarkan performa coding papan atas pada skala yang praktis dan mudah didistribusikan
  • Sudah bisa langsung digunakan di Qwen Studio, dan juga tersedia open weights untuk komunitas serta jalur akses API
  • Karakteristik utamanya mencakup agentic coding kelas flagship, penalaran teks yang kuat, dan kemampuan penalaran multimodal

Performa

  • Qwen3.6-27B dievaluasi secara komprehensif terhadap model acuan dense dan MoE, dan mencatat peningkatan besar pada benchmark agentic coding
  • Disebutkan juga bahwa model ini mengungguli model dengan total parameter hingga 15 kali lebih besar
  • Kategori evaluasi mencakup bahasa, pengetahuan, STEM dan penalaran, vision-language, pemahaman dokumen, pemahaman video, dan visual agent
  • Bahasa

    • Dengan hanya 27 miliar parameter, model ini melampaui Qwen3.5-397B-A17B di semua benchmark coding utama
      • SWE-bench Verified 77.2 vs 76.2
      • SWE-bench Pro 53.5 vs 50.9
      • Terminal-Bench 2.0 59.3 vs 52.5
      • SkillsBench 48.2 vs 30.0
    • Juga unggul jauh atas model dense lain pada kelas ukuran serupa
    • Pada tugas penalaran, model ini mencatat GPQA Diamond 87.8 poin, angka yang kompetitif dengan model internal yang beberapa kali lebih besar
    • Tabel detail mencakup perbandingan antara Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, dan Qwen3.6-27B
    • Angka utama pada kategori Coding Agent
      • SWE-bench Multilingual 71.3
      • QwenWebBench 1487
      • NL2Repo 36.2
      • Claw-Eval Avg 72.4
      • Claw-Eval Pass^3 60.6
      • QwenClawBench 53.4
    • Angka utama pada kategori Knowledge
      • MMLU-Pro 86.2
      • MMLU-Redux 93.5
      • SuperGPQA 66.0
      • C-Eval 91.4
    • Angka utama pada kategori STEM dan penalaran
      • HLE 24.0
      • LiveCodeBench v6 83.9
      • HMMT Feb 25 93.8
      • HMMT Nov 25 90.7
      • HMMT Feb 26 84.3
      • IMOAnswerBench 80.8
      • AIME26 94.1
  • Konfigurasi evaluasi bahasa

    • SWE-Bench Series menggunakan agent scaffold internal serta tool bash dan file-edit, dengan temp 1.0, top_p 0.95, dan context window 200K
      • Semua model acuan dievaluasi pada refined benchmark yang memperbaiki sebagian task bermasalah dari set publik SWE-bench Pro
    • Terminal-Bench 2.0 menggunakan harness Harbor atau Terminus-2
      • timeout 3 jam, 32 CPU, 48 GB RAM
      • temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K ctx
      • rata-rata dari 5 kali eksekusi
    • SkillsBench mengevaluasi 78 task dengan OpenCode
      • menggunakan subset self-contained dengan task yang bergantung pada API dikecualikan
      • rata-rata dari 5 kali eksekusi
    • Evaluasi model lain pada NL2Repo menggunakan Claude Code
      • temp 1.0, top_p 0.95, max_turns 900
    • QwenClawBench adalah benchmark agent Claw berbasis distribusi pengguna nyata
      • temp 0.6, 256K ctx
    • QwenWebBench adalah benchmark internal untuk pembuatan kode frontend
      • konfigurasi dwibahasa EN dan CN
      • 7 kategori: Web Design, Web Apps, Games, SVG, Data Visualization, Animation, 3D
      • menilai keselarasan kode dan visual melalui auto-render dan multimodal judge
      • menggunakan BT atau sistem rating Elo
    • AIME 26 menggunakan keseluruhan AIME 2026 I dan II
      • disebutkan bahwa skornya bisa berbeda dari catatan Qwen 3.5
  • Vision-language

    • Qwen3.6-27B mendukung mode thinking dan non-thinking vision-language dalam satu checkpoint terintegrasi
    • Dapat memproses gambar dan video bersama teks
    • Mendukung tugas penalaran multimodal, pemahaman dokumen, dan visual question answering
    • Tabel perbandingan disajikan dengan acuan Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, dan Qwen3.6-27B
    • STEM dan puzzle

      • MMMU 82.9
      • MMMU-Pro 75.8
      • MathVista mini 87.4
      • DynaMath 85.6
      • VlmsAreBlind 97.0
    • VQA umum

      • RealWorldQA 84.1
      • MMStar 81.4
      • MMBench EN-DEV-v1.1 92.3
      • SimpleVQA 56.1
    • Pemahaman dokumen

      • CharXiv RQ 78.4
      • CC-OCR 81.2
      • OCRBench 89.4
    • Kecerdasan spasial

      • ERQA 62.5
      • CountBench 97.8
      • RefCOCO avg 92.5
      • EmbSpatialBench 84.6
      • RefSpatialBench 70.0
    • Pemahaman video

      • VideoMME(w sub.) 87.7
      • VideoMMMU 84.4
      • MLVU 86.6
      • MVBench 75.5
    • Visual Agent

      • V* 94.7
      • AndroidWorld 70.3
    • Catatan

      • Kolom kosong (--) pada tabel berarti skor belum tersedia atau tidak berlaku

Pemanfaatan Qwen3.6-27B

  • Dukungan Alibaba Cloud Model Studio disebut akan segera tersedia
  • Open weights tersedia di Hugging Face dan ModelScope, sehingga memungkinkan self-hosting
  • Tersedia jalur penggunaan melalui Alibaba Cloud Model Studio API dan jalur uji coba instan di Qwen Studio
  • Mendukung integrasi dengan asisten coding pihak ketiga seperti OpenClaw, Claude Code, dan Qwen Code
  • Disebut mendukung penyederhanaan workflow pengembangan dan context-aware coding experience
  • Penggunaan API

    • Rilis ini mendukung fitur preserve_thinking
    • Fitur ini mempertahankan konten thinking yang dihasilkan di semua giliran sebelumnya dalam pesan, dan disebut direkomendasikan untuk agentic task
  • Alibaba Cloud Model Studio

    • Mendukung chat completions dan responses API yang kompatibel dengan spesifikasi OpenAI
    • Juga mendukung API interface yang kompatibel dengan Anthropic
    • Berdasarkan dokumentasi resmi, disertakan contoh environment variable
      • DASHSCOPE_API_KEY
      • DASHSCOPE_BASE_URL
      • DASHSCOPE_MODEL
    • Contoh region untuk Base URL juga disertakan
    • Dalam contoh kode, nama model default yang digunakan adalah qwen3.6-27b
    • extra_body memuat enable_thinking: True
      • preserve_thinking: True ditampilkan dalam bentuk komentar
    • Termasuk contoh untuk mengumpulkan reasoning_content dan answer content secara terpisah dari respons streaming
    • Untuk informasi tambahan, diarahkan melihat tautan API doc
  • Coding & Agents

    • Qwen3.6-27B memiliki kemampuan agentic coding dan dapat terintegrasi mulus dengan OpenClaw, Claude Code, dan Qwen Code
    • OpenClaw

      • OpenClaw adalah AI coding agent open-source self-hosted, sebelumnya bernama Moltbot atau Clawdbot
      • Dapat dihubungkan ke Model Studio untuk menghadirkan pengalaman agentic coding penuh di terminal
      • Skrip awal mencakup Node.js 22+, menjalankan skrip instalasi, menetapkan DASHSCOPE_API_KEY, lalu menjalankan openclaw dashboard atau openclaw tui
      • Pada penggunaan pertama, perlu mengedit ~/.openclaw/openclaw.json
        • Ditegaskan agar tidak menimpa seluruh file
        • Hanya field yang diperlukan yang harus digabungkan untuk menjaga konfigurasi yang ada
      • Contoh konfigurasi mencakup provider modelstudio dan pendaftaran model qwen3.6-27b
        • api adalah openai-completions
        • nilai reasoning adalah true
        • tipe input adalah text, image
        • contextWindow adalah 131072
        • maxTokens adalah 16384
        • model primary default adalah modelstudio/qwen3.6-27b
    • Qwen Code

      • Qwen Code adalah AI agent open-source untuk terminal, sebuah tool yang dioptimalkan secara mendalam untuk Qwen Series
      • Skrip awal mencakup Node.js 20+, instalasi @qwen-code/qwen-code@latest, lalu menjalankan qwen
      • Di dalam sesi tersedia contoh penggunaan perintah /help dan /auth
      • Pada penggunaan pertama akan muncul prompt login, dan metode autentikasi dapat diganti lewat /auth
    • Claude Code

      • Qwen APIs juga mendukung protokol Anthropic API
      • Disebut dapat digunakan bersama tool seperti Claude Code
      • Contoh konfigurasi memuat environment variable berikut
      • Perintah eksekusinya adalah claude

Penutup

  • Disebutkan bahwa model dense yang terlatih dengan baik dapat melampaui generasi sebelumnya yang jauh lebih besar pada tugas-tugas penting bagi pengembang, dan Qwen3.6-27B membuktikannya
  • Dengan skala 27 miliar parameter, model ini tetap melampaui Qwen3.5-397B-A17B di semua benchmark agentic coding utama
  • Struktur yang lebih sederhana untuk deployment dan layanan juga ikut ditekankan
  • Lini open-source Qwen3.6 kini memiliki cakupan konfigurasi model yang lebih luas dengan tambahan Qwen3.6-27B
  • Di bagian akhir artikel juga disebutkan bahwa terobosan agentic coding di generasi yang sama membentang dari Qwen3.6-35B-A3B yang 3B-active hingga Qwen3.6-Plus dan Qwen3.6-Max-Preview yang dapat diakses via API
  • Termasuk ucapan terima kasih atas masukan komunitas dan pemberitahuan bahwa akan ada rilis lanjutan

1 komentar

 
GN⁺ 10 jam lalu
Komentar Hacker News
  • Menurut saya, untuk model lokal yang dikuantisasi ke 16.8GB, hasil pelican-nya benar-benar luar biasa. Saya sudah merangkumnya di https://simonwillison.net/2026/Apr/22/qwen36-27b/, dan saya menjalankannya di M5 Pro 128GB RAM, tetapi kebutuhan memori nyatanya sekitar 20GB, jadi kemungkinan besar akan berjalan mulus juga di mesin 32GB. Untuk membaca, ia memproses 20 token dalam 0,4 detik, yaitu 54.32 tokens/s, dan untuk generasi, ia menghasilkan 4.444 token dalam 2 menit 53 detik, yaitu 25.57 tokens/s. Saya bahkan lebih menyukai hasil kali ini daripada pelican yang dibuat dengan Opus 4.7 beberapa hari lalu. https://simonwillison.net/2026/Apr/16/qwen-beats-opus/
    • Hasil kali ini terlalu bagus, sampai-sampai terasa seperti mungkin memang sudah masuk ke data pelatihan. Saya ingin mencoba tes lain juga untuk melihat seberapa besar bedanya
    • Saya sempat bercanda membayangkan suatu saat para penyedia model mulai mengoptimalkan model mereka untuk tes pelican riding a bicycle milik Simon yang berpengaruh itu
    • Dasi kupu-kupu pada Qwen Flamingo juga terasa benar-benar pas
    • Sepanjang yang saya ingat, saya hampir tidak pernah mendengar tes pelican dipuji sampai disebut excellent seperti ini, tetapi kali ini memang tampaknya pantas. Menarik juga bahwa setelah cukup lama arusnya bergerak ke MoE, sekarang model dense kembali mencuri perhatian. Saya jadi penasaran apakah model tertutup juga akan memakai lini cepat berbasis MoE dan lini pro berbasis dense
    • Rasanya pada titik ini LLM seharusnya sudah bisa memahami bahwa rangka sepeda pada dasarnya adalah belah ketupat yang terbelah dua → ◿◸. Semoga saya tidak merusak tesnya dengan mengatakan ini
  • Sejak Gemma 4 keluar sekitar Easter lalu, saya merasa jarak antara model self hosting dan Claude sudah cukup mengecil. Tentu selisihnya masih besar, tetapi model lokal sebelumnya memang sangat tidak kompetitif, jadi sekarang situasinya jauh lebih baik. Dan jika Qwen 3.6 memang satu tingkat di atas Gemma 4, itu cukup menggembirakan. Meski begitu, model lokal masih suka melenceng ke arah aneh atau gagal, jadi saya selalu menyiapkan Opus di dekat saya. Walaupun demikian, setiap kali model lokal benar-benar membantu saya, saya merasa coding semakin dekat dengan gagasan bahwa ia harus bebas. Bebas dalam arti gratis, dan bebas dalam arti kebebasan. Setup saya adalah mesin Ubuntu terpisah dengan RTX 5090, dan saat ini Qwen 3.6 27B sedang memakai 29GB dari total 32GB VRAM. Ollama saya jalankan di instance podman non-root, dan di editor saya sambungkan OpenCode sebagai ACP Service, sangat saya rekomendasikan. ACP adalah Agent Client Protocol, dan menurut saya dunia memang perlu bergerak ke arah ini. Dan saya juga berterima kasih kepada tim Qwen karena telah membuat dunia sedikit lebih baik di tengah dunia yang penuh Sam Altman
    • Dari model yang pernah saya jalankan lokal di M5 MBP saya, Gemma4 yang paling terasa mirip Claude
    • Saya juga setuju dengan ideal free dan local, tetapi pada akhirnya yang penting adalah persaingan yang berkelanjutan. Saya sudah cukup puas hanya dengan adanya tekanan untuk menurunkan biaya $200 per bulan ke level yang jauh lebih rendah
    • Saya penasaran sampai sejauh mana model 27B benar-benar sanggup menangani pekerjaan pemrograman. Claude saja kadang masih mengecewakan, jadi saya sulit membayangkan seberapa praktis 27B dalam penggunaan nyata
    • Saya penasaran berapa tokens/s yang keluar di RTX 5090
  • Setiap kali ada pengumuman model, saya berharap mereka juga langsung menunjukkan bisa dijalankan di consumer hardware apa saat ini, biayanya berapa, dan tok/s-nya kira-kira berapa
    • Untuk menjalankan model 27B yang mereka rilis sendiri secara native di 16-bit, dibutuhkan perangkat keras yang cukup besar. Anda memerlukan Mac atau sistem Strix Halo 128GB, beberapa GPU konsumen berkapasitas besar, atau kartu workstation kelas RTX 6000. Jadi sepertinya itulah alasan mereka tidak terlalu gencar mempromosikan hardware konsumen apa yang bisa menjalankannya. Rilis asli yang menghasilkan angka-angka itu memang tidak terlalu muat di sistem konsumen biasa. Kebanyakan orang menjalankan versi kuantisasi dengan bit lebih rendah, bukan versi asli. Namun kuantisasi jelas punya trade-off, jadi sulit berharap kualitasnya akan persis sama dengan hasil yang diiklankan. Qwen3.5 27B sebelumnya masih cukup layak dipakai sampai Q5 atau Q4 tergantung seberapa besar penurunan kualitas yang bisa diterima, dan pada sistem unified memory dibutuhkan RAM tambahan 32GB, sehingga umumnya Mac 64GB cukup cocok. Ini juga bisa dijalankan di NVIDIA 5090 32GB atau dua GPU 16GB maupun 24GB, tetapi lebih lambat karena distribusi. Saya pikir klaim bahwa model ini dijalankan di iPhone atau sistem yang lebih kecil harus dilihat dengan hati-hati. Dengan kuantisasi ekstrem dan berbagai trik memang bisa dijalankan, tetapi kualitas output-nya sering kali tidak layak dipakai sungguhan. Kadang ada repositori yang diunggah demi pamer di media sosial karena berhasil menjalankannya di hardware kecil, tetapi hasilnya sering tidak benar-benar bagus
    • Saya mendapatkan sekitar ~5 tokens/s di M4 32GB RAM. Saya menjalankan unsloth/Qwen3.6-27B-GGUF:Q4_K_M dengan llama-server, dan model 35B-A3B sekitar 25 t/s. Sebagai perbandingan, di A100 angkanya masing-masing sekitar 41 t/s dan 97 t/s. Saya belum menguji 27B terlalu lama, tetapi 35B-A3B sering keluar jalur setelah konteks melewati 15k~20k token. Untuk tugas dasar model ini bisa diandalkan, tetapi saya rasa belum pantas disebut setara frontier model
    • Kombinasi CPU/GPU yang bisa dipakai untuk menjalankan LLM lokal pada praktiknya hampir tak terbatas, jadi kebanyakan orang memilih sistem sesuai anggaran dan tujuan mereka, lalu memperkirakan pemakaian VRAM berdasarkan ukuran model dan kuantisasi. Kalau perlu analisis lebih rinci, Anda bisa memakai kalkulator VRAM online, misalnya https://smcleod.net/vram-estimator/. Jika punya akun huggingface, Anda juga bisa memasukkan konfigurasi sistem dan melihat kecocokan tiap quant lewat warna. Dan t/s sangat dipengaruhi banyak variabel termasuk ukuran konteks, jadi paling banter hanya bisa diperkirakan. Saat ini LLM lokal memang penuh trade-off di setiap titik, sehingga Anda terus harus memilih apa yang ingin dioptimalkan untuk tiap pekerjaan
    • Qwen3.5-27B dengan 4bit quant berjalan nyaman di kartu 24GB. Saya melayani 10 developer memakai dua Nvidia L4 plus beberapa flag vllm pada 20~25 tok/s, dan saat sepi bisa mencapai sekitar 40 tok/s. Para developer cukup puas dengan performa ini, meski mereka memang sempat meminta tambahan GPU untuk menaikkan throughput
    • Saya mendapatkan sekitar 30 t/s di RTX 4090D, dan VRAM yang terpakai 42GB dari total 48GB. Kuantisasinya UD-Q6_K_XL dan diskusinya ada di https://huggingface.co/unsloth/Qwen3.6-27B-GGUF/discussions/7
  • Ketika tempat seperti Qwen atau Minimax merilis model open source yang hasil benchmark-nya mirip, meski sedikit di bawah OpenAI atau Anthropic, saya jadi penasaran apa sebenarnya keunggulan kompetitif OpenAI atau Anthropic saat ini. Apalagi harga token model terbuka seperti ini juga hanya sebagian kecil dari Anthropic Opus 4.6. https://artificialanalysis.ai/models/#pricing
    • Dalam coding, beberapa persen terakhir dari perbedaan kualitas itu menurut saya cukup penting untuk layak dibayar mahal. Ini bukan seperti mencetak spam email atau komentar HN dalam jumlah besar. Saya rasa alasan selisih kompensasi antara engineer rata-rata dan engineer P99 juga ada di sini. Dan fakta bahwa perusahaan frontier saat ini tetap kompetitif sambil menanggung biaya R&D yang tinggi justru baik dalam jangka panjang, karena itu memaksa mereka menciptakan produk yang lebih baik dan nilai tambah yang lebih besar. Khususnya Anthropic tampaknya membidik posisi sebagai penyedia yang lebih tepercaya. Bahkan Ali pun meng-host model frontier berbayar, tetapi jika Anda bukan perusahaan Tiongkok, apakah Anda benar-benar mau menaruh beban kerja pengembangan kode produksi pada penyedia hosting Tiongkok? OpenAI juga punya sisi yang membuat tidak nyaman, tetapi setidaknya saya sedikit kurang curiga bahwa mereka akan menguras seluruh rahasia dagang Anda. Anthropic saya percayai sedikit lebih tinggi lagi. Jadi menurut saya di situlah premiumnya. Preseden historis bahwa perusahaan hosting Tiongkok bisa mengerahkan semua keunggulan kompetitif yang mungkin lalu membagikannya dengan pemerintah atau perusahaan lain terlalu kuat, sehingga orang-orang memasukkan risiko itu ke dalam harga
    • Saya memakai Opus dan Qwen keduanya, dan dalam pengalaman nyata jaraknya jauh lebih besar daripada yang terlihat di grafik benchmark. Kalau ingin membandingkan dengan model hosted, menurut saya saat ini lebih tepat melihat GLM. Ia termasuk yang paling dekat dengan para pemain besar, dulu dijual sangat murah, tetapi belakangan mulai menaikkan harga
    • Jika hasil seperti ini disebabkan oleh vampire attacks, saya berpikir begitu model tertutup belajar cara mencemari jalur yang dipakai untuk menyedot jawaban, performanya mungkin tidak akan tetap sebagus sekarang. Dan jika dipakai dalam workflow sehari-hari, mereka juga belum benar-benar setara. Untuk penalaran dangkal mungkin cukup baik, tetapi untuk coding atau pekerjaan yang lebih sulit, selisihnya masih besar. Setidaknya dari model terbuka yang pernah saya coba, saya belum menemukan yang sebaik model tertutup. Kalau ada setup yang bagus, saya ingin sekali mendengarnya
    • Pada saat ini saya rasa memang belum ada keunggulan kompetitif. Namun jika suatu ekosistem mulai terintegrasi, sejak saat itu barulah keunggulan akan muncul
    • Harga token Opus yang tinggi justru saya anggap bukti bahwa orang memang bersedia membayar untuk model yang lebih baik. Model OpenAI dan Anthropic yang baru terlihat jelas lebih baik daripada open source, dan meski open source tidak sampai tak berguna, frontier memang jelas lebih baik dan kemungkinan akan tetap begitu untuk sementara waktu. Jika waktu SWE bernilai lebih dari $1 per menit, maka satu percakapan seharga $10 tetap sangat layak jika ia menghemat 10 menit. Khusus untuk pekerjaan kode, peningkatan kualitas yang halus bisa berubah menjadi penghematan waktu yang besar
  • Saya memakai Qwen 3.6 35B dan Gemma 4 26B di M4 MBP, dan meskipun belum setingkat Opus, keduanya sudah bisa mengerjakan 95% dari hal yang saya butuhkan, dan fakta bahwa semua ini berjalan sepenuhnya lokal saja sudah sangat menakjubkan
    • Saya penasaran Anda mengerjakan jenis tugas apa, dan bagaimana Anda menghubungkan serta memakai Qwen atau Gemma, dengan harness atau pendekatan seperti apa. Dengan kata lain, saya ingin tahu seperti apa workflow dan software stack-nya
    • Sekarang model-model ini sudah cukup berguna sehingga, seperti Codex yang mengurangi pekerjaannya sendiri, saya jadi mendelegasikan lebih banyak pekerjaan ke model lokal ini. Dan di M4 saya, versi 122B justru punya throughput jauh lebih baik daripada dense 27B, jadi saya juga sangat menantikannya
    • Saya penasaran apakah Anda memakainya dengan Ollama, atau memakai yang lain
    • Saya ingin mendengar lebih jelas maksud dari angka 95% itu. Ada dua hal yang membuat saya penasaran. Pertama, apakah maksudnya kualitas output-nya sekitar 95% dari akurasi Opus 4.5 atau 4.6. Kedua, apakah itu berarti performanya sekitar 95% dari Opus dalam tool calling atau pekerjaan agentic, misalnya perencanaan perjalanan
  • Saya masih belum terlalu terbiasa dengan LLM lokal, jadi kemarin saya menghabiskan waktu untuk setup dan menguji beberapa model Qwen3.6-35B-A3B. Sepertinya mlx 4b dan 8b, serta gguf Q4_K_M dan Q4_K_XL. Hasilnya di M4 64GB saya cukup mengesankan. Namun dari tabel TFA, model baru ini tampak sedikit lebih cerdas tetapi juga lebih boros VRAM, jadi saya penasaran apakah perbedaan intinya memang karena ia dense. Dan karena 27B lebih kecil daripada 35B, saya jadi berharap akan segera muncul model kuantisasi yang menurunkan kebutuhan VRAM lebih jauh
    • Intinya bukan sekadar membandingkan jumlah parameter. 35B-A3B adalah model Mixture of Experts, jadi parameter yang aktif dalam satu waktu hanya sekitar 3B. Karena itu kebutuhan komputasi nyatanya tidak menskalakan seperti 35B, melainkan lebih dekat ke 3B itu. Tentu tetap dibutuhkan akses bandwidth tinggi ke seluruh lapisan 35B. Sementara model kali ini adalah dense, jadi di Mac kemungkinan akan jauh lebih lambat. Misalnya, di M4 Pro saya, dengan Q6 gguf saya mendapat sekitar 9 tok/s, sedangkan 35-A3B pada Q4 dengan mlx, meski bukan perbandingan yang benar-benar adil, sekitar 70 tok/s. Secara umum model dense seperti ini lebih cocok di GPU khusus, dan jika VRAM cukup untuk menahan seluruh model tetap resident, penilaiannya jadi mudah. Saya rasa model ini akan baik-baik saja mulai sekitar 24GB VRAM ke atas, jadi seri NVIDIA 3090, 4090, atau 5090 kemungkinan aman
  • Jika dijalankan di llama server dengan Q4_K_M, pada 24GB Anda bisa mendapat sekitar 91k context, dan jika dihitung, KV-Cache-nya sekitar 70MB per 1K konteks. Kalau naik ke Q5, kemungkinan masih tersisa ruang untuk sekitar 30K token, dan menurut saya itu cukup mengesankan
  • Saya mencoba membuat pelican yang sedang bersepeda dalam SVG, dan hasilnya ada di https://codepen.io/chdskndyq11546/pen/yyaWGJx. Saya juga membuat naga yang sedang menyetir mobil sambil makan hotdog, hasilnya ada di https://codepen.io/chdskndyq11546/pen/xbENmgK. Memang belum sempurna, tetapi hanya dari hasil seperti ini saja sudah terasa jelas betapa kuatnya model-model sekarang
    • Gambar naga itu masih punya masalah seperti mata tunggal atau ekor aneh, tetapi yang pelican terasa hampir sempurna, sampai-sampai menurut saya itu yang terbaik yang pernah saya lihat
    • Ini sudah menjadi benchmark yang terlalu terkenal, jadi saya jadi penasaran apakah model-modelnya sebenarnya memang sudah dilatih untuk tes ini
  • Dari pengalaman inferensi lokal saya sejauh ini, saya masih belum terlalu terkesan. Di M5 Pro 128GB RAM dengan omlx saya hanya mendapat sekitar 11 tokens/s, dan akhirnya butuh satu jam untuk menulis beberapa ratus baris kode yang tidak jalan. Untuk tugas yang sama, Opus dan Sonnet menyelesaikannya dengan sukses dalam hitungan menit di CC. Model 3.6 35b yang saya jalankan kemarin di Ollama tampak lumayan oke. Saya juga berencana mencoba harness lain selain Claude Code, tetapi saat ini rasanya model lokal masih terlalu lambat
    • Ini adalah dense model, jadi wajar lambat di Mac. Kalau pakai Mac, lebih baik coba rilis Mixture of Experts Qwen3.6, yaitu Qwen3.6-35B-A3B. Di M4 Pro saya, model ini mencapai sekitar 70 tok/s. Kalau Anda mendapat angka yang jauh lebih lambat dari itu, mungkin Anda tanpa sengaja memakai format GGUF. Di Mac, format khusus Apple yaitu MLX sering kali lebih cepat
    • Di MacBook M2 Max saya, dengan versi MLX kuantisasi 8-bit, saya mendapat kecepatan generasi sekitar 7 tokens/sec
    • Saya merasa OpenCode lebih bagus memanfaatkan model lokal daripada Claude
  • Saya penasaran, dengan RAM 48GB di M4 Pro, apa yang bisa dijalankan