5 poin oleh xguru 2024-06-08 | 1 komentar | Bagikan ke WhatsApp
  • Qwen2 adalah model yang dikembangkan dari Qwen1.5, mencakup model pra-pelatihan dan model instruction-tuned dalam 5 ukuran
    • Ukuran modelnya adalah Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
  • Selain bahasa Inggris dan Mandarin, model ini juga dilatih tambahan dengan data dalam 27 bahasa
  • Menunjukkan performa mutakhir pada banyak evaluasi benchmark, dengan peningkatan besar terutama di bidang coding dan matematika
  • Model Qwen2-7B-Instruct dan Qwen2-72B-Instruct mendukung panjang konteks yang diperluas hingga 128K token dengan memanfaatkan YARN

Informasi model Qwen2

  • Semua ukuran model menerapkan Group Query Attention(GQA) untuk meningkatkan kecepatan inferensi dan mengurangi penggunaan memori
  • Untuk model kecil, pendekatan embedding tying lebih diprioritaskan
  • Model instruction-tuned dievaluasi kemampuan penanganan panjang konteksnya melalui evaluasi task Needle in a Haystack
  • Dengan teknologi YARN, Qwen2-7B-Instruct dan Qwen2-72B-Instruct dapat memproses hingga 128K token

Performa

  • Pra-pelatihan dan instruction tuning dilakukan menggunakan dataset dalam 27 bahasa selain Inggris dan Mandarin untuk memperkuat kemampuan multibahasa
  • Kemampuan menangani code-switching meningkat secara signifikan
  • Dengan memanfaatkan dataset pra-pelatihan dan metode pelatihan yang dioptimalkan, Qwen2-72B menunjukkan performa yang lebih baik daripada model-model terbaru seperti Llama-3-70B
  • Melalui post-training, kemampuan di bidang coding, matematika, penalaran, pelaksanaan instruksi, dan pemahaman multibahasa semakin ditingkatkan, sekaligus mencapai penyelarasan dengan nilai-nilai manusia
  • Pada 16 benchmark, Qwen2-72B-Instruct jauh melampaui Qwen1.5-72B-Chat dan menunjukkan performa yang sebanding dengan Llama-3-70B-Instruct
  • Model Qwen2 berukuran kecil juga melampaui model SOTA yang setara atau lebih besar. Terutama menonjol pada metrik terkait coding dan bahasa Mandarin

Poin utama

  • Dengan mengintegrasikan pengalaman dan data pelatihan kode dari CodeQwen1.5, performa Qwen2-72B-Instruct dalam berbagai bahasa pemrograman meningkat secara signifikan
  • Dengan memanfaatkan dataset yang luas dan berkualitas tinggi, kemampuan Qwen2-72B-Instruct dalam menyelesaikan soal matematika diperkuat
  • Qwen2-72B-Instruct dapat menangani task ekstraksi informasi sepanjang 128K secara sempurna
  • Solusi agen yang efisien untuk memproses dokumen 1 juta token juga telah di-open-source-kan
  • Hasil evaluasi rasio respons berbahaya terhadap empat jenis kueri berbahaya multibahasa menunjukkan bahwa Qwen2-72B-Instruct memiliki tingkat keamanan yang mirip dengan GPT-4 dan jauh lebih unggul daripada Mistral-8x22B

Pemanfaatan Qwen2

  • Semua model telah dirilis di Hugging Face dan ModelScope sehingga dapat digunakan secara bebas
  • Qwen2-72B dan model instruction-tuned mengadopsi Qianwen License, sementara model lainnya menggunakan lisensi Apache 2.0
  • Untuk cara memanfaatkan Qwen2 bersama berbagai framework pihak ketiga, lihat dokumentasi masing-masing framework dan dokumentasi resmi

Rencana masa depan Qwen2

  • Berencana melatih model Qwen2 yang lebih besar untuk mengeksplorasi scaling model seiring dengan scaling data
  • Berencana memperluas Qwen2 menjadi model bahasa multimodal yang juga dapat memahami informasi visual dan audio
  • Ke depannya, model-model baru juga akan terus di-open-source-kan untuk mempercepat perkembangan open-source AI