7 poin oleh GN⁺ 2024-11-15 | 1 komentar | Bagikan ke WhatsApp
  • Tim riset Qwen dari Alibaba mengumumkan Qwen2.5-Coder, seri LLM open source (lisensi Apache 2.0)
  • Model Qwen2.5-Coder-32B-Instruct diklaim memiliki kemampuan coding setara GPT-4o
  • Model 32B ini relatif kecil hingga dapat dijalankan bahkan di MacBook Pro M2 64GB
  • Dalam performa benchmark, model ini mencatat skor yang setara atau lebih tinggi dibanding GPT-4o dan Claude 3.5 Sonnet

Perbandingan performa benchmark

  • Model Qwen2.5-Coder-32B-Instruct menonjol pada benchmark berikut:
    • Di LiveCodeBench, Spider, dan BIRD-SQL, performanya lebih baik daripada GPT-4o dan Claude 3.5 Sonnet
    • Di MBPP, Aider, dan CodeArena, performanya sedikit tertinggal
    • Di HumanEval dan McEval, performanya berada di tingkat yang serupa

Performa pada benchmark Aider

  • Model ini juga menunjukkan hasil yang baik pada benchmark Aider milik Paul Gauthier
    • Pada benchmark "Whole edit", Qwen2.5-Coder-32B-Instruct mencatat performa di antara GPT-4o dan 3.5 Haiku
    • Perbandingan skor:
      • 3.5 Sonnet: 84%
      • 3.5 Haiku: 75%
      • Qwen2.5-Coder 32B: 74%
      • GPT-4o: 71%
      • Qwen2.5-Coder 14B: 69%
      • Qwen2.5-Coder 7B: 58%
    • Pada benchmark "Diff", model ini imbang dengan GPT-4o dan sedikit di bawah Claude 3.5 Haiku

Uji menjalankan Qwen2.5-Coder di Mac

  • Pengguna mencoba menjalankan model Q8 Qwen2.5-Coder-32B-Instruct-GGUF menggunakan llm-gguf, tetapi karena tidak memakai GPU, kecepatannya lambat
  • Versi Ollama dan MLX berjalan baik di MacBook
  • Cara memasang Ollama:
    • Unduh file terkuantisasi berukuran 20GB dengan perintah ollama pull qwen2.5-coder:32b
    • Untuk permintaan membuat fungsi Python, model bekerja dengan baik kecuali ada masalah ssl
  • Menggunakan MLX:
    • Performa meningkat dengan memakai framework MLX untuk Apple Silicon
    • Berhasil menjalankan kode pembuat fraktal Mandelbrot di terminal dan menampilkannya sebagai ASCII art
    • Metrik performa:
      • Kecepatan generasi token: 10.016 tokens/sec
      • Penggunaan memori: maksimum 32.685GB

Uji tambahan: benchmark Pelican on a bicycle

  • Menjalankan permintaan llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle'
  • Hasilnya berupa gambar SVG pelikan dan sepeda dengan bentuk yang kurang jelas, tetapi tetap menarik dari sisi pengalaman pengguna

Kesimpulan dan pengalaman pengguna

  • Penggunaan memori 32GB masih pada tingkat yang bisa dijalankan di Mac, bahkan tanpa perlu menutup aplikasi lain
  • Dari sisi kecepatan dan kualitas hasil, model ini cukup kompetitif terhadap model hosted yang ada saat ini
  • Karena 80% penggunaan LLM oleh pengguna terkait penulisan kode, Qwen2.5-Coder tampak akan menjadi peningkatan yang bermakna

1 komentar

 
savvykang 2024-11-15

Meskipun ini sedikit berbeda dari skenario pengguna coding, saya penasaran bagaimana mode JSON Claude diimplementasikan. Beberapa model yang di-host, meski didorong untuk menghasilkan output JSON, malah membuat JavaScript berkomentar atau teks Markdown. Dari pengalaman saya mencoba beberapa model yang di-host, menggunakan layanan terkelola memberikan hasil yang lebih memuaskan. Sepertinya ada sesuatu lagi yang tidak bisa diimplementasikan hanya dengan model yang di-host.