8 poin oleh GN⁺ 2025-04-29 | 2 komentar | Bagikan ke WhatsApp
  • Qwen3 adalah model bahasa besar terbaru dengan hingga 235B parameter, yang menunjukkan performa setara kompetitif dengan DeepSeek-R1, Grok-3, Gemini-2.5-Pro, dan lainnya
  • Mendukung mode berpikir hibrida (Thinking/Non-Thinking), sehingga kedalaman penalaran dapat disesuaikan berdasarkan tingkat kesulitan masalah
  • Mendukung 119 bahasa dan dialek, sehingga kegunaan global meningkat drastis
  • Dipra-latih dengan 36 triliun token data, 2x lebih besar dibanding versi sebelumnya, sehingga kemampuan coding, matematika, dan penalaran logis meningkat
  • Dirilis sebagai open source dengan lisensi Apache 2.0, dan dapat langsung digunakan di Hugging Face, ModelScope, Kaggle, dan lainnya

Pengantar

  • Qwen3 adalah model bahasa besar terbaru dari seri Qwen, dengan Qwen3-235B-A22B sebagai model flagship utama yang memiliki 235B parameter
  • Qwen3-30B-A3B, model MoE berukuran kecil, menunjukkan performa yang melampaui QwQ-32B yang mengaktifkan parameter 10 kali lebih banyak
  • Merilis 6 model Dense (0.6B, 1.7B, 4B, 8B, 14B, 32B) dan 2 model MoE (30B, 235B) di bawah lisensi Apache 2.0

Fitur utama

  • Mode berpikir hibrida

    • Thinking mode: mode yang melakukan penalaran bertahap untuk masalah yang kompleks
    • Non-Thinking mode: mode yang memberikan jawaban langsung untuk masalah sederhana yang membutuhkan respons cepat
    • Anggaran penalaran dapat disesuaikan berdasarkan tugas untuk mengoptimalkan efisiensi biaya dan kualitas
  • Dukungan multibahasa

    • Dukungan untuk 119 bahasa dan dialek memperkuat potensi perluasan aplikasi global
    • Kelompok bahasa utama yang didukung: rumpun Indo-Eropa, rumpun Sino-Tibet, rumpun Afro-Asiatik, rumpun Austronesia, rumpun Dravida, dan lainnya
  • Kemampuan agen yang ditingkatkan

    • Dioptimalkan untuk coding dan kemampuan agen
    • Dapat dimaksimalkan kemampuan tool calling-nya dengan integrasi ke Qwen-Agent

Pra-pelatihan

  • Melakukan pra-pelatihan menggunakan 36 triliun token, 2x lebih banyak dibanding Qwen2.5
  • Mengumpulkan data web dan dokumen mirip PDF untuk membangun beragam dataset berkualitas tinggi
  • Memperkuat data di bidang STEM, coding, dan matematika untuk mencapai peningkatan kemampuan penalaran secara keseluruhan

Pasca-pelatihan

  • Menerapkan pipeline 4 tahap (awal CoT → reinforcement learning → penggabungan mode berpikir → reinforcement learning umum)
  • Mengoptimalkan model agar dapat melakukan penalaran logis dan respons cepat secara bersamaan
  • Memperkuat generalisasi dan stabilitas melalui reinforcement learning pada lebih dari 20 tugas domain umum

Mengembangkan dengan Qwen3

  • Mendukung berbagai framework seperti Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp, dan lainnya
  • Thinking mode dapat dengan mudah diaktifkan/nonaktifkan di dalam kode, dan juga bisa berpindah saat percakapan berlangsung menggunakan perintah /think, /no_think

Cara menggunakan agen

  • Melalui Qwen-Agent, dimungkinkan membangun sistem agen kompleks dengan menggunakan file konfigurasi MCP atau tool bawaan
  • Dapat membangun server yang kompatibel dengan OpenAI API secara langsung untuk deployment lokal maupun publik

Pekerjaan ke depan

  • Qwen3 menandai tonggak penting menuju artificial general intelligence (AGI) dan artificial superintelligence (ASI), serta mencapai tingkat kecerdasan yang lebih tinggi dengan memperluas pra-pelatihan dan reinforcement learning
  • Dengan meningkatkan arsitektur model dan metodologi pelatihan, tujuannya adalah ekspansi data, peningkatan ukuran model, perluasan panjang konteks, perluasan modalitas, serta penalaran jangka panjang melalui umpan balik lingkungan
  • Sedang beralih dari era yang berpusat pada pelatihan model ke era yang berpusat pada pelatihan agen, dan versi berikutnya akan membawa kemajuan yang bermakna bagi pekerjaan dan kehidupan semua orang

2 komentar

 
iwanhae 2025-04-29

Model besar memang menarik, tetapi sisi model kecil jauh lebih menarik.
Sepertinya model 0.6B mampu memberikan performa setara sekitar 7B dari banyak model lain.

 
GN⁺ 2025-04-29
Pendapat Hacker News
  • Sebuah masalah berbasis fisika diberikan kepada LLM, dan itu adalah masalah yang sulit bahkan bagi manusia. GPT o3, Claude 3.7, dan Gemini 2.5 Pro semuanya awalnya gagal memberikan jawaban yang benar. Qwen3 bahkan lebih salah.

  • Dokumentasinya sangat baik, dan dukungan untuk stack inferensi utama tersedia sejak hari pertama. Ada banyak pilihan ukuran. Sudah ada pengalaman bekerja dengan para pembuat kuantisasi komunitas.

  • Belum menguji performanya, tetapi hanya dari perhatian pada detail-detail di sekitarnya saja ini sudah menjadi rilis yang hebat. Ini seharusnya menjadi standar dibandingkan dengan Llama 4 dari Meta.

  • Hasil benchmark-nya sangat luar biasa sampai sulit dipercaya. Model 30B mampu bersaing dengan Gemini 2.5 Pro dan jauh lebih baik daripada Gemma 27B.

  • Berbagai model open-weight terus bermunculan, dan saya penasaran apakah ada cara untuk menemukan model yang bisa berjalan pada kecepatan yang masuk akal di GPU desktop standar. Saya menggunakan Quadro RTX 4000, dan tidak tahu model dari berbagai ukuran mana yang akan cepat.

  • Ada kemungkinan model Qwen dan DeepSeek dilatih agar selaras dengan pandangan dunia CCP, tetapi dalam praktiknya itu tidak benar-benar menimbulkan masalah. Belum banyak riset terkait hal ini.

  • Saya paling menantikan Qwen-30B-A3B. Ini tampak cocok sebagai coding assistant khusus offline/lokal. Sejauh ini model open-weight cenderung performanya kurang atau terlalu lambat.

  • Saya sedang mencari wawasan tentang cara terbaik membandingkan model penalaran. Disarankan menggunakan temperatur tinggi untuk jawaban kreatif, dan temperatur rendah untuk output yang logis dan deterministik. Namun saya tidak yakin apakah itu berlaku untuk model penalaran.

  • Menarik bahwa LLM 0.6B memiliki context window 32k. Ini bisa menjadi model dasar yang menyenangkan untuk fine-tuning. Di Hugging Face, ini paling banyak diunduh dan disukai.

  • Model-model ini tampaknya melakukan banyak pemikiran. Benchmark dijalankan dengan anggaran pemikiran 32k token. A3B khususnya melampaui QWQ dan bisa berguna untuk inferensi CPU.

  • Angka performanya sangat mengesankan. MoE melampaui o1 dengan 3B parameter aktif. Model lokal menjadi cukup baik hingga bisa menangani sebagian besar tugas.