Qwen2.5-Coder-32B, LLM dengan kemampuan coding unggul yang berjalan baik di Mac

(simonwillison.net)

7 poin oleh GN⁺ 2024-11-15 | 1 komentar | Bagikan ke WhatsApp

Tim riset Qwen dari Alibaba mengumumkan Qwen2.5-Coder, seri LLM open source (lisensi Apache 2.0)
Model Qwen2.5-Coder-32B-Instruct diklaim memiliki kemampuan coding setara GPT-4o
Model 32B ini relatif kecil hingga dapat dijalankan bahkan di MacBook Pro M2 64GB
Dalam performa benchmark, model ini mencatat skor yang setara atau lebih tinggi dibanding GPT-4o dan Claude 3.5 Sonnet

Perbandingan performa benchmark

Model Qwen2.5-Coder-32B-Instruct menonjol pada benchmark berikut:
- Di LiveCodeBench, Spider, dan BIRD-SQL, performanya lebih baik daripada GPT-4o dan Claude 3.5 Sonnet
- Di MBPP, Aider, dan CodeArena, performanya sedikit tertinggal
- Di HumanEval dan McEval, performanya berada di tingkat yang serupa

Performa pada benchmark Aider

Model ini juga menunjukkan hasil yang baik pada benchmark Aider milik Paul Gauthier
- Pada benchmark "Whole edit", Qwen2.5-Coder-32B-Instruct mencatat performa di antara GPT-4o dan 3.5 Haiku
- Perbandingan skor:
  - 3.5 Sonnet: 84%
  - 3.5 Haiku: 75%
  - Qwen2.5-Coder 32B: 74%
  - GPT-4o: 71%
  - Qwen2.5-Coder 14B: 69%
  - Qwen2.5-Coder 7B: 58%
- Pada benchmark "Diff", model ini imbang dengan GPT-4o dan sedikit di bawah Claude 3.5 Haiku

Uji menjalankan Qwen2.5-Coder di Mac

Pengguna mencoba menjalankan model Q8 Qwen2.5-Coder-32B-Instruct-GGUF menggunakan llm-gguf, tetapi karena tidak memakai GPU, kecepatannya lambat
Versi Ollama dan MLX berjalan baik di MacBook
Cara memasang Ollama:
- Unduh file terkuantisasi berukuran 20GB dengan perintah ollama pull qwen2.5-coder:32b
- Untuk permintaan membuat fungsi Python, model bekerja dengan baik kecuali ada masalah ssl
Menggunakan MLX:
- Performa meningkat dengan memakai framework MLX untuk Apple Silicon
- Berhasil menjalankan kode pembuat fraktal Mandelbrot di terminal dan menampilkannya sebagai ASCII art
- Metrik performa:
  - Kecepatan generasi token: 10.016 tokens/sec
  - Penggunaan memori: maksimum 32.685GB

Uji tambahan: benchmark Pelican on a bicycle

Menjalankan permintaan llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle'
Hasilnya berupa gambar SVG pelikan dan sepeda dengan bentuk yang kurang jelas, tetapi tetap menarik dari sisi pengalaman pengguna

Kesimpulan dan pengalaman pengguna

Penggunaan memori 32GB masih pada tingkat yang bisa dijalankan di Mac, bahkan tanpa perlu menutup aplikasi lain
Dari sisi kecepatan dan kualitas hasil, model ini cukup kompetitif terhadap model hosted yang ada saat ini
Karena 80% penggunaan LLM oleh pengguna terkait penulisan kode, Qwen2.5-Coder tampak akan menjadi peningkatan yang bermakna

1 komentar

savvykang 2024-11-15

Meskipun ini sedikit berbeda dari skenario pengguna coding, saya penasaran bagaimana mode JSON Claude diimplementasikan. Beberapa model yang di-host, meski didorong untuk menghasilkan output JSON, malah membuat JavaScript berkomentar atau teks Markdown. Dari pengalaman saya mencoba beberapa model yang di-host, menggunakan layanan terkelola memberikan hasil yang lebih memuaskan. Sepertinya ada sesuatu lagi yang tidak bisa diimplementasikan hanya dengan model yang di-host.