- Model QwQ-32B adalah model dengan 32 miliar parameter yang menunjukkan performa serupa dengan DeepSeek-R1
- Model ini memanfaatkan reinforcement learning (RL) untuk meningkatkan kecerdasan model bahasa besar
- Tersedia secara terbuka di Hugging Face dan ModelScope dengan lisensi Apache 2.0, serta dapat diakses melalui Qwen Chat
Performa
- QwQ-32B diuji pada berbagai benchmark yang mengevaluasi penalaran matematika, kemampuan coding, dan kemampuan pemecahan masalah umum.
- Performanya dievaluasi dengan membandingkannya terhadap DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, dan DeepSeek-R1 asli
- QwQ-32B mencatat performa terbaik di LiveBench dan BFCL, serta berada di tingkat yang mirip dengan DeepSeek-R1-671B pada IFEval dan AIME24
- Di LiveCodeBench, performanya sedikit di bawah DeepSeek-R1-671B, tetapi tetap lebih unggul dibanding model lain
- Secara keseluruhan, model ini menunjukkan performa yang setara atau lebih baik dari DeepSeek-R1-671B, sambil membuktikan daya saing dengan parameter yang jauh lebih sedikit (32,5 miliar vs 671 miliar)
- Artinya, poin utamanya adalah QwQ-32B merupakan model yang dioptimalkan melalui reinforcement learning dan mampu mencapai performa papan atas meski berukuran jauh lebih kecil
Reinforcement learning
- Pada tahap awal, diperkenalkan pendekatan scaling reinforcement learning (RL) untuk tugas matematika dan coding
- Alih-alih model reward tradisional, digunakan pemeriksa akurasi dan server eksekusi kode untuk menjamin ketepatan solusi akhir
- Ada tahap RL tambahan untuk kemampuan umum, yang meningkatkan performa pada kemampuan umum seperti preferensi manusia dan kinerja agen
Pekerjaan selanjutnya
- Qwen masih berada pada tahap awal dalam memperluas reinforcement learning (RL) untuk meningkatkan kemampuan penalaran
- Dengan menggabungkan model dasar yang diperkuat dan sumber daya komputasi yang diskalakan, mereka akan semakin dekat ke pencapaian artificial general intelligence (AGI)
- Mereka juga sedang mengeksplorasi agar integrasi agen dan RL memungkinkan penalaran jangka panjang sehingga dapat menghadirkan kecerdasan yang lebih besar
1 komentar
Opini Hacker News
Panjang konteks yang besar (130k token) perlu diperhatikan. Menghasilkan CoT yang panjang tanpa konteks yang memadai tidak ada artinya
Pembelajaran matematika dan coding meningkatkan kemampuan penalaran umum
20 kali lebih kecil daripada DeepSeek. Penasaran bisa dijalankan di perangkat keras seperti apa
Strategi Tiongkok adalah menghasilkan keuntungan dari perangkat lunak open source dan robotika
Memberikan tautan untuk menguji Qwen2.5-plus
Dirilis sebagai "preview" pada November 2024
Berada tepat di bawah Deepseek-R1
Dalam pengalaman pribadi, dilakukan tes membaca terbalik dan menjawab pertanyaan
ip fo eulav si tahwdibaca terbalik, hasilnya adalahwhat is value of piDitangani seketika dan merupakan pengalaman yang positif