3 poin oleh GN⁺ 2025-03-06 | 1 komentar | Bagikan ke WhatsApp
  • Model QwQ-32B adalah model dengan 32 miliar parameter yang menunjukkan performa serupa dengan DeepSeek-R1
  • Model ini memanfaatkan reinforcement learning (RL) untuk meningkatkan kecerdasan model bahasa besar
  • Tersedia secara terbuka di Hugging Face dan ModelScope dengan lisensi Apache 2.0, serta dapat diakses melalui Qwen Chat

Performa

  • QwQ-32B diuji pada berbagai benchmark yang mengevaluasi penalaran matematika, kemampuan coding, dan kemampuan pemecahan masalah umum.
  • Performanya dievaluasi dengan membandingkannya terhadap DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, dan DeepSeek-R1 asli
    • QwQ-32B mencatat performa terbaik di LiveBench dan BFCL, serta berada di tingkat yang mirip dengan DeepSeek-R1-671B pada IFEval dan AIME24
    • Di LiveCodeBench, performanya sedikit di bawah DeepSeek-R1-671B, tetapi tetap lebih unggul dibanding model lain
    • Secara keseluruhan, model ini menunjukkan performa yang setara atau lebih baik dari DeepSeek-R1-671B, sambil membuktikan daya saing dengan parameter yang jauh lebih sedikit (32,5 miliar vs 671 miliar)
    • Artinya, poin utamanya adalah QwQ-32B merupakan model yang dioptimalkan melalui reinforcement learning dan mampu mencapai performa papan atas meski berukuran jauh lebih kecil

Reinforcement learning

  • Pada tahap awal, diperkenalkan pendekatan scaling reinforcement learning (RL) untuk tugas matematika dan coding
  • Alih-alih model reward tradisional, digunakan pemeriksa akurasi dan server eksekusi kode untuk menjamin ketepatan solusi akhir
  • Ada tahap RL tambahan untuk kemampuan umum, yang meningkatkan performa pada kemampuan umum seperti preferensi manusia dan kinerja agen

Pekerjaan selanjutnya

  • Qwen masih berada pada tahap awal dalam memperluas reinforcement learning (RL) untuk meningkatkan kemampuan penalaran
  • Dengan menggabungkan model dasar yang diperkuat dan sumber daya komputasi yang diskalakan, mereka akan semakin dekat ke pencapaian artificial general intelligence (AGI)
  • Mereka juga sedang mengeksplorasi agar integrasi agen dan RL memungkinkan penalaran jangka panjang sehingga dapat menghadirkan kecerdasan yang lebih besar

1 komentar

 
GN⁺ 2025-03-06
Opini Hacker News
  • Panjang konteks yang besar (130k token) perlu diperhatikan. Menghasilkan CoT yang panjang tanpa konteks yang memadai tidak ada artinya

    • Prompt pertama terlalu panjang sehingga model melupakan tugasnya
    • Pengguna tidak memberikan tugas yang spesifik
    • Instruksi awalnya adalah untuk bertindak sebagai agen AI
    • Tampaknya pengguna memberikan masalah dan meminta penalaran langkah demi langkah
  • Pembelajaran matematika dan coding meningkatkan kemampuan penalaran umum

  • 20 kali lebih kecil daripada DeepSeek. Penasaran bisa dijalankan di perangkat keras seperti apa

    • Sepertinya tidak memerlukan M3 Ultra 512GB
    • Menyamai Deepseek tetapi 20 kali lebih kecil
  • Strategi Tiongkok adalah menghasilkan keuntungan dari perangkat lunak open source dan robotika

    • Penasaran bagaimana AS akan mempertahankan dominasinya
    • India belum bisa ikut dalam persaingan ini
  • Memberikan tautan untuk menguji Qwen2.5-plus

  • Dirilis sebagai "preview" pada November 2024

    • Sering menggunakan ungkapan "tunggu"
    • Muncul masalah kehilangan alur setelah menghasilkan banyak token penalaran
  • Berada tepat di bawah Deepseek-R1

    • Sangat mengesankan untuk ukuran 32B
    • Token "berpikir" kadang 10 kali lebih besar daripada jawaban akhir
    • Akan diuji dengan function calling pada akhir pekan
  • Dalam pengalaman pribadi, dilakukan tes membaca terbalik dan menjawab pertanyaan

    • Jika ip fo eulav si tahw dibaca terbalik, hasilnya adalah what is value of pi
    • Nilai π adalah sekitar 3.14159
    • π adalah bilangan irasional, tidak berulang tanpa akhir dalam pola tetap
  • Ditangani seketika dan merupakan pengalaman yang positif