- Tim riset Qwen dari Alibaba mengumumkan Qwen2.5-Coder, seri LLM open source (lisensi Apache 2.0)
- Model Qwen2.5-Coder-32B-Instruct diklaim memiliki kemampuan coding setara GPT-4o
- Model 32B ini relatif kecil hingga dapat dijalankan bahkan di MacBook Pro M2 64GB
- Dalam performa benchmark, model ini mencatat skor yang setara atau lebih tinggi dibanding GPT-4o dan Claude 3.5 Sonnet
Perbandingan performa benchmark
- Model Qwen2.5-Coder-32B-Instruct menonjol pada benchmark berikut:
- Di LiveCodeBench, Spider, dan BIRD-SQL, performanya lebih baik daripada GPT-4o dan Claude 3.5 Sonnet
- Di MBPP, Aider, dan CodeArena, performanya sedikit tertinggal
- Di HumanEval dan McEval, performanya berada di tingkat yang serupa
Performa pada benchmark Aider
- Model ini juga menunjukkan hasil yang baik pada benchmark Aider milik Paul Gauthier
- Pada benchmark "Whole edit", Qwen2.5-Coder-32B-Instruct mencatat performa di antara GPT-4o dan 3.5 Haiku
- Perbandingan skor:
- 3.5 Sonnet: 84%
- 3.5 Haiku: 75%
- Qwen2.5-Coder 32B: 74%
- GPT-4o: 71%
- Qwen2.5-Coder 14B: 69%
- Qwen2.5-Coder 7B: 58%
- Pada benchmark "Diff", model ini imbang dengan GPT-4o dan sedikit di bawah Claude 3.5 Haiku
Uji menjalankan Qwen2.5-Coder di Mac
- Pengguna mencoba menjalankan model Q8 Qwen2.5-Coder-32B-Instruct-GGUF menggunakan llm-gguf, tetapi karena tidak memakai GPU, kecepatannya lambat
- Versi Ollama dan MLX berjalan baik di MacBook
- Cara memasang Ollama:
- Unduh file terkuantisasi berukuran 20GB dengan perintah
ollama pull qwen2.5-coder:32b
- Untuk permintaan membuat fungsi Python, model bekerja dengan baik kecuali ada masalah ssl
- Menggunakan MLX:
- Performa meningkat dengan memakai framework MLX untuk Apple Silicon
- Berhasil menjalankan kode pembuat fraktal Mandelbrot di terminal dan menampilkannya sebagai ASCII art
- Metrik performa:
- Kecepatan generasi token: 10.016 tokens/sec
- Penggunaan memori: maksimum 32.685GB
Uji tambahan: benchmark Pelican on a bicycle
- Menjalankan permintaan
llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle'
- Hasilnya berupa gambar SVG pelikan dan sepeda dengan bentuk yang kurang jelas, tetapi tetap menarik dari sisi pengalaman pengguna
Kesimpulan dan pengalaman pengguna
- Penggunaan memori 32GB masih pada tingkat yang bisa dijalankan di Mac, bahkan tanpa perlu menutup aplikasi lain
- Dari sisi kecepatan dan kualitas hasil, model ini cukup kompetitif terhadap model hosted yang ada saat ini
- Karena 80% penggunaan LLM oleh pengguna terkait penulisan kode, Qwen2.5-Coder tampak akan menjadi peningkatan yang bermakna
1 komentar
Meskipun ini sedikit berbeda dari skenario pengguna coding, saya penasaran bagaimana mode JSON Claude diimplementasikan. Beberapa model yang di-host, meski didorong untuk menghasilkan output JSON, malah membuat JavaScript berkomentar atau teks Markdown. Dari pengalaman saya mencoba beberapa model yang di-host, menggunakan layanan terkelola memberikan hasil yang lebih memuaskan. Sepertinya ada sesuatu lagi yang tidak bisa diimplementasikan hanya dengan model yang di-host.