7 poin oleh xguru 2024-09-20 | 1 komentar | Bagikan ke WhatsApp
  • Qwen2.5 mencakup model khusus seperti LLM Qwen2.5, Qwen2.5-Coder untuk coding, dan Qwen2.5-Math untuk matematika
  • Semua model open-weight adalah model bahasa dense decoder-only dan tersedia dalam berbagai ukuran dari 0.5B hingga 72B
  • Semua model open-source kecuali model 3B dan 72B disediakan dengan lisensi Apache 2.0
  • Model bahasa flagship Qwen-Plus dan Qwen-Turbo tersedia sebagai API melalui Model Studio
  • Qwen2-VL-72B juga dirilis sebagai open-source, dengan performa yang ditingkatkan dibanding versi bulan lalu

Fitur Qwen2.5

  • Dipra-latih dengan dataset berskala besar hingga 1,8 triliun token, sehingga pengetahuannya meningkat signifikan dibanding Qwen2 (MMLU: 85+)
  • Kemampuan coding (HumanEval 85+) dan matematika (MATH 80+) juga meningkat pesat
  • Kemampuan mengikuti instruksi, menghasilkan teks panjang (lebih dari 8K token), memahami data terstruktur (misalnya tabel), dan menghasilkan output terstruktur seperti JSON meningkat secara signifikan
  • Lebih tangguh terhadap keragaman system prompt, sehingga lebih mudah menetapkan peran dan kondisi chatbot
  • Seperti Qwen2, model bahasa Qwen2.5 mendukung hingga 128K token dan dapat menghasilkan hingga 8K token
  • Mendukung lebih dari 29 bahasa, termasuk Mandarin, Inggris, Prancis, Spanyol, Portugis, Jerman, Italia, Rusia, Jepang, Korea, Vietnam, Thailand, dan Arab

Performa

Qwen2.5

  • Performa Qwen2.5-72B (model bahasa dense decoder-only 72B parameter, model open-source terbesar) dibandingkan dengan model open-source utama seperti Llama-3.1-70B dan Mistral-Large-V2
  • Menyajikan hasil komprehensif dari versi instruction-tuned pada berbagai benchmark untuk mengevaluasi baik kemampuan model maupun preferensi manusia
  • Selain model bahasa instruction-tuned, base language model Qwen2.5-72B juga menunjukkan performa tingkat atas bahkan saat dibandingkan dengan model yang lebih besar seperti Llama-3-405B
  • Versi terbaru dari model berbasis API Qwen-Plus dibandingkan dengan model proprietary dan open-source terkenal seperti GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B, dan DeepSeek-V2.5
    • Qwen-Plus jauh melampaui DeepSeek-V2.5 dan menunjukkan performa setara dengan Llama-3.1-405B, tetapi pada beberapa aspek masih belum menyamai GPT4-o dan Claude-3.5-Sonnet
  • Qwen2.5-14B dan Qwen2.5-32B diperkenalkan kembali. Model-model ini melampaui model acuan dengan ukuran serupa atau lebih besar seperti Phi-3.5-MoE-Instruct dan Gemma2-27B-IT
  • Model berbasis API Qwen-Turbo menawarkan layanan cepat dengan harga yang masuk akal dan menunjukkan performa yang sangat kompetitif dibanding dua model open-source tersebut
  • Qwen2.5-3B memberikan performa yang sangat mengesankan dengan sekitar 3 miliar parameter, dengan efisiensi dan kemampuan yang lebih baik dibanding versi sebelumnya
  • Selain peningkatan evaluasi benchmark, metodologi post-training juga ditingkatkan. Empat pembaruan utama adalah dukungan untuk menghasilkan teks panjang hingga 8K token, peningkatan besar dalam pemahaman data terstruktur, kemampuan menghasilkan output terstruktur seperti format JSON yang lebih andal, dan performa yang meningkat pada beragam system prompt untuk membantu pelaksanaan peran

Qwen2.5-Coder

  • Sejak peluncuran CodeQwen1.5, semakin banyak pengguna mengandalkan model ini untuk berbagai tugas coding seperti debugging, menjawab pertanyaan terkait coding, dan memberi saran kode
  • Versi terbaru Qwen2.5-Coder dirancang khusus untuk aplikasi coding
  • Meski berukuran kecil, model ini menunjukkan kemampuan coding yang luar biasa, termasuk melampaui model bahasa yang lebih besar pada berbagai bahasa pemrograman dan tugas

Qwen2.5-Math

  • Bulan lalu mereka pertama kali merilis model bahasa khusus matematika Qwen2-Math, dan dibandingkan Qwen2-Math, Qwen2.5-Math dipra-latih dengan data terkait matematika dalam skala yang lebih besar, termasuk data sintetis yang dihasilkan oleh Qwen2-Math
  • Kali ini dukungan bahasa Mandarin diperluas, dan kemampuan menjalankan CoT, PoT, serta TIR juga ditambahkan untuk memperkuat kemampuan penalaran
  • Performa umum Qwen2.5-Math-72B-Instruct melampaui Qwen2-Math-72B-Instruct dan GPT4-o, dan bahkan model ahli yang sangat kecil seperti Qwen2.5-Math-1.5B-Instruct dapat menunjukkan performa yang sangat kompetitif dibanding model bahasa besar

Mengembangkan dengan Qwen2.5

  • Untuk menggunakan Qwen2.5 bersama vLLM, Anda dapat menerapkan layanan yang kompatibel dengan OpenAI API menggunakan perintah berikut:
  • Qwen2.5 mendukung tool calling bawaan dari vllm. Fitur ini memerlukan vllm>=0.6
  • Qwen2.5 juga mendukung tool calling dari Ollama
  • Dukungan tool calling di transformers milik Hugging Face juga dapat digunakan
  • Sebelumnya, Qwen-Agent mendukung tool calling menggunakan template tool calling milik Qwen2 sendiri, dan Qwen2.5 tetap mempertahankan kompatibilitas dengan template Qwen2 serta Qwen-Agent

Rencana ke depan?

  • Mereka senang bisa merilis banyak model berkualitas tinggi sekaligus, tetapi juga menyadari masih ada tantangan besar yang tersisa
  • Melalui rilis terbaru ini, mereka menunjukkan upaya untuk mengembangkan model foundation yang kuat di ranah bahasa, vision-language, dan audio-language
  • Namun, penting untuk mengintegrasikan berbagai modalitas ini ke dalam satu model agar informasi dari semua ranah dapat diproses secara mulus
  • Mereka telah meningkatkan kemampuan penalaran melalui scaling data, tetapi terinspirasi oleh kemajuan terbaru di reinforcement learning, mereka juga berkomitmen meningkatkan kemampuan penalaran model lebih jauh dengan melakukan scaling pada inference compute