QwQ-32B: Mencapai performa mirip DeepSeek-R1 dengan parameter lebih kecil melalui reinforcement learning

(qwenlm.github.io)

3 poin oleh GN⁺ 2025-03-06 | 1 komentar | Bagikan ke WhatsApp

Model QwQ-32B adalah model dengan 32 miliar parameter yang menunjukkan performa serupa dengan DeepSeek-R1
Model ini memanfaatkan reinforcement learning (RL) untuk meningkatkan kecerdasan model bahasa besar
Tersedia secara terbuka di Hugging Face dan ModelScope dengan lisensi Apache 2.0, serta dapat diakses melalui Qwen Chat

Performa

QwQ-32B diuji pada berbagai benchmark yang mengevaluasi penalaran matematika, kemampuan coding, dan kemampuan pemecahan masalah umum.
Performanya dievaluasi dengan membandingkannya terhadap DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, dan DeepSeek-R1 asli
- QwQ-32B mencatat performa terbaik di LiveBench dan BFCL, serta berada di tingkat yang mirip dengan DeepSeek-R1-671B pada IFEval dan AIME24
- Di LiveCodeBench, performanya sedikit di bawah DeepSeek-R1-671B, tetapi tetap lebih unggul dibanding model lain
- Secara keseluruhan, model ini menunjukkan performa yang setara atau lebih baik dari DeepSeek-R1-671B, sambil membuktikan daya saing dengan parameter yang jauh lebih sedikit (32,5 miliar vs 671 miliar)
- Artinya, poin utamanya adalah QwQ-32B merupakan model yang dioptimalkan melalui reinforcement learning dan mampu mencapai performa papan atas meski berukuran jauh lebih kecil

Reinforcement learning

Pada tahap awal, diperkenalkan pendekatan scaling reinforcement learning (RL) untuk tugas matematika dan coding
Alih-alih model reward tradisional, digunakan pemeriksa akurasi dan server eksekusi kode untuk menjamin ketepatan solusi akhir
Ada tahap RL tambahan untuk kemampuan umum, yang meningkatkan performa pada kemampuan umum seperti preferensi manusia dan kinerja agen

Pekerjaan selanjutnya

Qwen masih berada pada tahap awal dalam memperluas reinforcement learning (RL) untuk meningkatkan kemampuan penalaran
Dengan menggabungkan model dasar yang diperkuat dan sumber daya komputasi yang diskalakan, mereka akan semakin dekat ke pencapaian artificial general intelligence (AGI)
Mereka juga sedang mengeksplorasi agar integrasi agen dan RL memungkinkan penalaran jangka panjang sehingga dapat menghadirkan kecerdasan yang lebih besar

1 komentar

GN⁺ 2025-03-06

Opini Hacker News

Panjang konteks yang besar (130k token) perlu diperhatikan. Menghasilkan CoT yang panjang tanpa konteks yang memadai tidak ada artinya
- Prompt pertama terlalu panjang sehingga model melupakan tugasnya
- Pengguna tidak memberikan tugas yang spesifik
- Instruksi awalnya adalah untuk bertindak sebagai agen AI
- Tampaknya pengguna memberikan masalah dan meminta penalaran langkah demi langkah
Pembelajaran matematika dan coding meningkatkan kemampuan penalaran umum
20 kali lebih kecil daripada DeepSeek. Penasaran bisa dijalankan di perangkat keras seperti apa
- Sepertinya tidak memerlukan M3 Ultra 512GB
- Menyamai Deepseek tetapi 20 kali lebih kecil
Strategi Tiongkok adalah menghasilkan keuntungan dari perangkat lunak open source dan robotika
- Penasaran bagaimana AS akan mempertahankan dominasinya
- India belum bisa ikut dalam persaingan ini
Memberikan tautan untuk menguji Qwen2.5-plus
Dirilis sebagai "preview" pada November 2024
- Sering menggunakan ungkapan "tunggu"
- Muncul masalah kehilangan alur setelah menghasilkan banyak token penalaran
Berada tepat di bawah Deepseek-R1
- Sangat mengesankan untuk ukuran 32B
- Token "berpikir" kadang 10 kali lebih besar daripada jawaban akhir
- Akan diuji dengan function calling pada akhir pekan
Dalam pengalaman pribadi, dilakukan tes membaca terbalik dan menjawab pertanyaan
- Jika ip fo eulav si tahw dibaca terbalik, hasilnya adalah what is value of pi
- Nilai π adalah sekitar 3.14159
- π adalah bilangan irasional, tidak berulang tanpa akhir dalam pola tetap
Ditangani seketika dan merupakan pengalaman yang positif

QwQ-32B: Mencapai performa mirip DeepSeek-R1 dengan parameter lebih kecil melalui reinforcement learning

Performa

Reinforcement learning

Pekerjaan selanjutnya

Bacaan terkait

1 komentar

Opini Hacker News