Alibaba merilis model Qwen 2
(qwenlm.github.io)- Qwen2 adalah model yang dikembangkan dari Qwen1.5, mencakup model pra-pelatihan dan model instruction-tuned dalam 5 ukuran
- Ukuran modelnya adalah Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
- Selain bahasa Inggris dan Mandarin, model ini juga dilatih tambahan dengan data dalam 27 bahasa
- Menunjukkan performa mutakhir pada banyak evaluasi benchmark, dengan peningkatan besar terutama di bidang coding dan matematika
- Model Qwen2-7B-Instruct dan Qwen2-72B-Instruct mendukung panjang konteks yang diperluas hingga 128K token dengan memanfaatkan YARN
Informasi model Qwen2
- Semua ukuran model menerapkan Group Query Attention(GQA) untuk meningkatkan kecepatan inferensi dan mengurangi penggunaan memori
- Untuk model kecil, pendekatan embedding tying lebih diprioritaskan
- Model instruction-tuned dievaluasi kemampuan penanganan panjang konteksnya melalui evaluasi task Needle in a Haystack
- Dengan teknologi YARN, Qwen2-7B-Instruct dan Qwen2-72B-Instruct dapat memproses hingga 128K token
Performa
- Pra-pelatihan dan instruction tuning dilakukan menggunakan dataset dalam 27 bahasa selain Inggris dan Mandarin untuk memperkuat kemampuan multibahasa
- Kemampuan menangani code-switching meningkat secara signifikan
- Dengan memanfaatkan dataset pra-pelatihan dan metode pelatihan yang dioptimalkan, Qwen2-72B menunjukkan performa yang lebih baik daripada model-model terbaru seperti Llama-3-70B
- Melalui post-training, kemampuan di bidang coding, matematika, penalaran, pelaksanaan instruksi, dan pemahaman multibahasa semakin ditingkatkan, sekaligus mencapai penyelarasan dengan nilai-nilai manusia
- Pada 16 benchmark, Qwen2-72B-Instruct jauh melampaui Qwen1.5-72B-Chat dan menunjukkan performa yang sebanding dengan Llama-3-70B-Instruct
- Model Qwen2 berukuran kecil juga melampaui model SOTA yang setara atau lebih besar. Terutama menonjol pada metrik terkait coding dan bahasa Mandarin
Poin utama
- Dengan mengintegrasikan pengalaman dan data pelatihan kode dari CodeQwen1.5, performa Qwen2-72B-Instruct dalam berbagai bahasa pemrograman meningkat secara signifikan
- Dengan memanfaatkan dataset yang luas dan berkualitas tinggi, kemampuan Qwen2-72B-Instruct dalam menyelesaikan soal matematika diperkuat
- Qwen2-72B-Instruct dapat menangani task ekstraksi informasi sepanjang 128K secara sempurna
- Solusi agen yang efisien untuk memproses dokumen 1 juta token juga telah di-open-source-kan
- Hasil evaluasi rasio respons berbahaya terhadap empat jenis kueri berbahaya multibahasa menunjukkan bahwa Qwen2-72B-Instruct memiliki tingkat keamanan yang mirip dengan GPT-4 dan jauh lebih unggul daripada Mistral-8x22B
Pemanfaatan Qwen2
- Semua model telah dirilis di Hugging Face dan ModelScope sehingga dapat digunakan secara bebas
- Qwen2-72B dan model instruction-tuned mengadopsi Qianwen License, sementara model lainnya menggunakan lisensi Apache 2.0
- Untuk cara memanfaatkan Qwen2 bersama berbagai framework pihak ketiga, lihat dokumentasi masing-masing framework dan dokumentasi resmi
Rencana masa depan Qwen2
- Berencana melatih model Qwen2 yang lebih besar untuk mengeksplorasi scaling model seiring dengan scaling data
- Berencana memperluas Qwen2 menjadi model bahasa multimodal yang juga dapat memahami informasi visual dan audio
- Ke depannya, model-model baru juga akan terus di-open-source-kan untuk mempercepat perkembangan open-source AI
1 komentar
Alibaba, merilis model AI open-source QWEN
Qwen1.5-110B : model 100B+ pertama dalam seri LLM open-source Qwen1.5 dari Alibaba