Qwen3 - Model bahasa generasi berikutnya yang berpikir lebih dalam dan bertindak lebih cepat

(qwenlm.github.io)

8 poin oleh GN⁺ 2025-04-29 | 2 komentar | Bagikan ke WhatsApp

Qwen3 adalah model bahasa besar terbaru dengan hingga 235B parameter, yang menunjukkan performa setara kompetitif dengan DeepSeek-R1, Grok-3, Gemini-2.5-Pro, dan lainnya
Mendukung mode berpikir hibrida (Thinking/Non-Thinking), sehingga kedalaman penalaran dapat disesuaikan berdasarkan tingkat kesulitan masalah
Mendukung 119 bahasa dan dialek, sehingga kegunaan global meningkat drastis
Dipra-latih dengan 36 triliun token data, 2x lebih besar dibanding versi sebelumnya, sehingga kemampuan coding, matematika, dan penalaran logis meningkat
Dirilis sebagai open source dengan lisensi Apache 2.0, dan dapat langsung digunakan di Hugging Face, ModelScope, Kaggle, dan lainnya

Pengantar

Qwen3 adalah model bahasa besar terbaru dari seri Qwen, dengan Qwen3-235B-A22B sebagai model flagship utama yang memiliki 235B parameter
Qwen3-30B-A3B, model MoE berukuran kecil, menunjukkan performa yang melampaui QwQ-32B yang mengaktifkan parameter 10 kali lebih banyak
Merilis 6 model Dense (0.6B, 1.7B, 4B, 8B, 14B, 32B) dan 2 model MoE (30B, 235B) di bawah lisensi Apache 2.0

Fitur utama

Mode berpikir hibrida
- Thinking mode: mode yang melakukan penalaran bertahap untuk masalah yang kompleks
- Non-Thinking mode: mode yang memberikan jawaban langsung untuk masalah sederhana yang membutuhkan respons cepat
- Anggaran penalaran dapat disesuaikan berdasarkan tugas untuk mengoptimalkan efisiensi biaya dan kualitas
Dukungan multibahasa
- Dukungan untuk 119 bahasa dan dialek memperkuat potensi perluasan aplikasi global
- Kelompok bahasa utama yang didukung: rumpun Indo-Eropa, rumpun Sino-Tibet, rumpun Afro-Asiatik, rumpun Austronesia, rumpun Dravida, dan lainnya
Kemampuan agen yang ditingkatkan
- Dioptimalkan untuk coding dan kemampuan agen
- Dapat dimaksimalkan kemampuan tool calling-nya dengan integrasi ke Qwen-Agent

Pra-pelatihan

Melakukan pra-pelatihan menggunakan 36 triliun token, 2x lebih banyak dibanding Qwen2.5
Mengumpulkan data web dan dokumen mirip PDF untuk membangun beragam dataset berkualitas tinggi
Memperkuat data di bidang STEM, coding, dan matematika untuk mencapai peningkatan kemampuan penalaran secara keseluruhan

Pasca-pelatihan

Menerapkan pipeline 4 tahap (awal CoT → reinforcement learning → penggabungan mode berpikir → reinforcement learning umum)
Mengoptimalkan model agar dapat melakukan penalaran logis dan respons cepat secara bersamaan
Memperkuat generalisasi dan stabilitas melalui reinforcement learning pada lebih dari 20 tugas domain umum

Mengembangkan dengan Qwen3

Mendukung berbagai framework seperti Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp, dan lainnya
Thinking mode dapat dengan mudah diaktifkan/nonaktifkan di dalam kode, dan juga bisa berpindah saat percakapan berlangsung menggunakan perintah /think, /no_think

Cara menggunakan agen

Melalui Qwen-Agent, dimungkinkan membangun sistem agen kompleks dengan menggunakan file konfigurasi MCP atau tool bawaan
Dapat membangun server yang kompatibel dengan OpenAI API secara langsung untuk deployment lokal maupun publik

Pekerjaan ke depan

Qwen3 menandai tonggak penting menuju artificial general intelligence (AGI) dan artificial superintelligence (ASI), serta mencapai tingkat kecerdasan yang lebih tinggi dengan memperluas pra-pelatihan dan reinforcement learning
Dengan meningkatkan arsitektur model dan metodologi pelatihan, tujuannya adalah ekspansi data, peningkatan ukuran model, perluasan panjang konteks, perluasan modalitas, serta penalaran jangka panjang melalui umpan balik lingkungan
Sedang beralih dari era yang berpusat pada pelatihan model ke era yang berpusat pada pelatihan agen, dan versi berikutnya akan membawa kemajuan yang bermakna bagi pekerjaan dan kehidupan semua orang

2 komentar

iwanhae 2025-04-29

Model besar memang menarik, tetapi sisi model kecil jauh lebih menarik.
Sepertinya model 0.6B mampu memberikan performa setara sekitar 7B dari banyak model lain.

GN⁺ 2025-04-29

Pendapat Hacker News

Sebuah masalah berbasis fisika diberikan kepada LLM, dan itu adalah masalah yang sulit bahkan bagi manusia. GPT o3, Claude 3.7, dan Gemini 2.5 Pro semuanya awalnya gagal memberikan jawaban yang benar. Qwen3 bahkan lebih salah.
Dokumentasinya sangat baik, dan dukungan untuk stack inferensi utama tersedia sejak hari pertama. Ada banyak pilihan ukuran. Sudah ada pengalaman bekerja dengan para pembuat kuantisasi komunitas.
Belum menguji performanya, tetapi hanya dari perhatian pada detail-detail di sekitarnya saja ini sudah menjadi rilis yang hebat. Ini seharusnya menjadi standar dibandingkan dengan Llama 4 dari Meta.
Hasil benchmark-nya sangat luar biasa sampai sulit dipercaya. Model 30B mampu bersaing dengan Gemini 2.5 Pro dan jauh lebih baik daripada Gemma 27B.
Berbagai model open-weight terus bermunculan, dan saya penasaran apakah ada cara untuk menemukan model yang bisa berjalan pada kecepatan yang masuk akal di GPU desktop standar. Saya menggunakan Quadro RTX 4000, dan tidak tahu model dari berbagai ukuran mana yang akan cepat.
Ada kemungkinan model Qwen dan DeepSeek dilatih agar selaras dengan pandangan dunia CCP, tetapi dalam praktiknya itu tidak benar-benar menimbulkan masalah. Belum banyak riset terkait hal ini.
Saya paling menantikan Qwen-30B-A3B. Ini tampak cocok sebagai coding assistant khusus offline/lokal. Sejauh ini model open-weight cenderung performanya kurang atau terlalu lambat.
Saya sedang mencari wawasan tentang cara terbaik membandingkan model penalaran. Disarankan menggunakan temperatur tinggi untuk jawaban kreatif, dan temperatur rendah untuk output yang logis dan deterministik. Namun saya tidak yakin apakah itu berlaku untuk model penalaran.
Menarik bahwa LLM 0.6B memiliki context window 32k. Ini bisa menjadi model dasar yang menyenangkan untuk fine-tuning. Di Hugging Face, ini paling banyak diunduh dan disukai.
Model-model ini tampaknya melakukan banyak pemikiran. Benchmark dijalankan dengan anggaran pemikiran 32k token. A3B khususnya melampaui QWQ dan bisa berguna untuk inferensi CPU.
Angka performanya sangat mengesankan. MoE melampaui o1 dengan 3B parameter aktif. Model lokal menjadi cukup baik hingga bisa menangani sebagian besar tugas.