Alibaba merilis model Qwen 2

xguru · 2024-06-08T10:02:01+09:00

Qwen2 adalah model yang dikembangkan dari Qwen1.5, mencakup model pra-pelatihan dan model instruction-tuned dalam 5 ukuran Ukuran modelnya adalah Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B Selain bahasa Inggris dan Mandarin, model ini juga dilatih tambahan dengan data dalam 27 bahasa Menunjukkan performa mutakhir pada banyak evaluasi benchmark, dengan peningkatan besar terutama di bidang coding dan matematika Model Qwen2-7B-Instruct dan Qwen2-72B-Instruct mendukung panjang konteks yang diperluas hingga 128K token dengan memanfaatkan YARN Informasi model Qwen2 Semua ukuran model menerapkan Group Query Attention(GQA) untuk meningkatkan kecepatan inferensi dan mengurangi penggunaan memori Untuk model kecil, pendekatan embedding tying lebih diprioritaskan Model instruction-tuned dievaluasi kemampuan penanganan panjang konteksnya melalui evaluasi task Needle in a Haystack Dengan teknologi YARN, Qwen2-7B-Instruct dan Qwen2-72B-Instruct dapat memproses hingga 128K token Performa Pra-pelatihan dan instruction tuning dilakukan menggunakan dataset dalam 27 bahasa selain Inggris dan Mandarin untuk memperkuat kemampuan multibahasa Kemampuan menangani code-switching meningkat secara signifikan Dengan memanfaatkan dataset pra-pelatihan dan metode pelatihan yang dioptimalkan, Qwen2-72B menunjukkan performa yang lebih baik daripada model-model terbaru seperti Llama-3-70B Melalui post-training, kemampuan di bidang coding, matematika, penalaran, pelaksanaan instruksi, dan pemahaman multibahasa semakin ditingkatkan, sekaligus mencapai penyelarasan dengan nilai-nilai manusia Pada 16 benchmark, Qwen2-72B-Instruct jauh melampaui Qwen1.5-72B-Chat dan menunjukkan performa yang sebanding dengan Llama-3-70B-Instruct Model Qwen2 berukuran kecil juga melampaui model SOTA yang setara atau lebih besar. Terutama menonjol pada metrik terkait coding dan bahasa Mandarin Poin utama Dengan mengintegrasikan pengalaman dan data pelatihan kode dari CodeQwen1.5, performa Qwen2-72B-Instruct dalam berbagai bahasa pemrograman meningkat secara signifikan Dengan memanfaatkan dataset yang luas dan berkualitas tinggi, kemampuan Qwen2-72B-Instruct dalam menyelesaikan soal matematika diperkuat Qwen2-72B-Instruct dapat menangani task ekstraksi informasi sepanjang 128K secara sempurna Solusi agen yang efisien untuk memproses dokumen 1 juta token juga telah di-open-source-kan Hasil evaluasi rasio respons berbahaya terhadap empat jenis kueri berbahaya multibahasa menunjukkan bahwa Qwen2-72B-Instruct memiliki tingkat keamanan yang mirip dengan GPT-4 dan jauh lebih unggul daripada Mistral-8x22B Pemanfaatan Qwen2 Semua model telah dirilis di Hugging Face dan ModelScope sehingga dapat digunakan secara bebas Qwen2-72B dan model instruction-tuned mengadopsi Qianwen License, sementara model lainnya menggunakan lisensi Apache 2.0 Untuk cara memanfaatkan Qwen2 bersama berbagai framework pihak ketiga, lihat dokumentasi masing-masing framework dan dokumentasi resmi Rencana masa depan Qwen2 Berencana melatih model Qwen2 yang lebih besar untuk mengeksplorasi scaling model seiring dengan scaling data Berencana memperluas Qwen2 menjadi model bahasa multimodal yang juga dapat memahami informasi visual dan audio Ke depannya, model-model baru juga akan terus di-open-source-kan untuk mempercepat perkembangan open-source AI

(qwenlm.github.io)

5 poin oleh xguru 2024-06-08 | 1 komentar | Bagikan ke WhatsApp

Qwen2 adalah model yang dikembangkan dari Qwen1.5, mencakup model pra-pelatihan dan model instruction-tuned dalam 5 ukuran
- Ukuran modelnya adalah Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
Selain bahasa Inggris dan Mandarin, model ini juga dilatih tambahan dengan data dalam 27 bahasa
Menunjukkan performa mutakhir pada banyak evaluasi benchmark, dengan peningkatan besar terutama di bidang coding dan matematika
Model Qwen2-7B-Instruct dan Qwen2-72B-Instruct mendukung panjang konteks yang diperluas hingga 128K token dengan memanfaatkan YARN

Informasi model Qwen2

Semua ukuran model menerapkan Group Query Attention(GQA) untuk meningkatkan kecepatan inferensi dan mengurangi penggunaan memori
Untuk model kecil, pendekatan embedding tying lebih diprioritaskan
Model instruction-tuned dievaluasi kemampuan penanganan panjang konteksnya melalui evaluasi task Needle in a Haystack
Dengan teknologi YARN, Qwen2-7B-Instruct dan Qwen2-72B-Instruct dapat memproses hingga 128K token

Performa

Pra-pelatihan dan instruction tuning dilakukan menggunakan dataset dalam 27 bahasa selain Inggris dan Mandarin untuk memperkuat kemampuan multibahasa
Kemampuan menangani code-switching meningkat secara signifikan
Dengan memanfaatkan dataset pra-pelatihan dan metode pelatihan yang dioptimalkan, Qwen2-72B menunjukkan performa yang lebih baik daripada model-model terbaru seperti Llama-3-70B
Melalui post-training, kemampuan di bidang coding, matematika, penalaran, pelaksanaan instruksi, dan pemahaman multibahasa semakin ditingkatkan, sekaligus mencapai penyelarasan dengan nilai-nilai manusia
Pada 16 benchmark, Qwen2-72B-Instruct jauh melampaui Qwen1.5-72B-Chat dan menunjukkan performa yang sebanding dengan Llama-3-70B-Instruct
Model Qwen2 berukuran kecil juga melampaui model SOTA yang setara atau lebih besar. Terutama menonjol pada metrik terkait coding dan bahasa Mandarin

Poin utama

Dengan mengintegrasikan pengalaman dan data pelatihan kode dari CodeQwen1.5, performa Qwen2-72B-Instruct dalam berbagai bahasa pemrograman meningkat secara signifikan
Dengan memanfaatkan dataset yang luas dan berkualitas tinggi, kemampuan Qwen2-72B-Instruct dalam menyelesaikan soal matematika diperkuat
Qwen2-72B-Instruct dapat menangani task ekstraksi informasi sepanjang 128K secara sempurna
Solusi agen yang efisien untuk memproses dokumen 1 juta token juga telah di-open-source-kan
Hasil evaluasi rasio respons berbahaya terhadap empat jenis kueri berbahaya multibahasa menunjukkan bahwa Qwen2-72B-Instruct memiliki tingkat keamanan yang mirip dengan GPT-4 dan jauh lebih unggul daripada Mistral-8x22B

Pemanfaatan Qwen2

Semua model telah dirilis di Hugging Face dan ModelScope sehingga dapat digunakan secara bebas
Qwen2-72B dan model instruction-tuned mengadopsi Qianwen License, sementara model lainnya menggunakan lisensi Apache 2.0
Untuk cara memanfaatkan Qwen2 bersama berbagai framework pihak ketiga, lihat dokumentasi masing-masing framework dan dokumentasi resmi

Rencana masa depan Qwen2

Berencana melatih model Qwen2 yang lebih besar untuk mengeksplorasi scaling model seiring dengan scaling data
Berencana memperluas Qwen2 menjadi model bahasa multimodal yang juga dapat memahami informasi visual dan audio
Ke depannya, model-model baru juga akan terus di-open-source-kan untuk mempercepat perkembangan open-source AI

1 komentar

xguru 2024-06-08

Alibaba, merilis model AI open-source QWEN
Qwen1.5-110B : model 100B+ pertama dalam seri LLM open-source Qwen1.5 dari Alibaba