Qwen1.5-110B: model 100B+ pertama dalam seri LLM open-source Qwen1.5 dari Alibaba

xguru · 2024-04-28T09:30:03+09:00

Dalam komunitas open-source, belakangan ini banyak bermunculan model skala besar dengan lebih dari 100 miliar parameter, yang menunjukkan performa luar biasa dalam evaluasi benchmark dan bidang chatbot Alibaba juga merilis Qwen1.5-110B, model 100B+ pertama dalam seri Qwen1.5 Dalam evaluasi model dasar, performanya setara dengan Meta-Llama3-70B, dan juga menunjukkan performa unggul dalam evaluasi chat termasuk MT-Bench dan AlpacaEval 2.0 Karakteristik model Qwen1.5-110B Qwen1.5-110B mirip dengan model Qwen1.5 lainnya dan dibangun dengan arsitektur decoder Transformer yang sama Terdiri dari Grouped Query Attention (GQA) sehingga efisien untuk serving model Mendukung panjang konteks 32K token dan merupakan model multibahasa yang mendukung banyak bahasa seperti Inggris, Mandarin, Prancis, Spanyol, Jerman, Rusia, Korea, Jepang, Vietnam, dan Arab Hasil evaluasi model bahasa dasar Serangkaian evaluasi dilakukan pada model bahasa dasar dan dibandingkan dengan model bahasa SOTA terbaru Meta-Llama3-70B serta Mixtral-8x22B Hasilnya menunjukkan bahwa model 110B baru ini setidaknya kompetitif dengan model Llama-3-70B dalam kemampuan dasar Karena recipe pre-training dan post-training untuk model ini tidak diubah secara drastis, peningkatan performa dibandingkan 72B tampaknya berasal dari peningkatan ukuran model Hasil evaluasi model chat Model chat diuji pada MT-Bench dan AlpacaEval 2.0 Dibanding model 72B yang dirilis sebelumnya, 110B menunjukkan performa yang jauh lebih baik pada kedua benchmark tersebut Peningkatan yang konsisten dalam evaluasi menunjukkan bahwa model bahasa dasar yang lebih kuat dan lebih besar dapat menghasilkan model chat yang lebih baik, bahkan tanpa banyak perubahan pada recipe post-training Mengembangkan dengan Qwen1.5-110B Untuk memahami cara menggunakannya dengan Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory, dan lainnya, disarankan membaca blog Qwen1.5 Kesimpulan Qwen1.5-110B adalah model terbesar dalam seri Qwen1.5 dan model pertama dalam seri tersebut yang memiliki lebih dari 100 miliar parameter Model ini menunjukkan performa yang kompetitif dengan Llama-3-70B, model SOTA yang baru dirilis, dan jauh lebih unggul daripada model 72B Ini menunjukkan bahwa masih ada banyak potensi dalam memperbesar ukuran model untuk mencapai performa yang lebih baik Perilisan Llama-3 menunjukkan pentingnya memperluas data ke skala yang sangat besar, tetapi diyakini bahwa pada rilis mendatang keunggulan dari kedua pendekatan dapat diraih dengan memperbesar baik data maupun ukuran model

(qwenlm.github.io)

5 poin oleh xguru 2024-04-28 | 1 komentar | Bagikan ke WhatsApp

Dalam komunitas open-source, belakangan ini banyak bermunculan model skala besar dengan lebih dari 100 miliar parameter, yang menunjukkan performa luar biasa dalam evaluasi benchmark dan bidang chatbot
Alibaba juga merilis Qwen1.5-110B, model 100B+ pertama dalam seri Qwen1.5
Dalam evaluasi model dasar, performanya setara dengan Meta-Llama3-70B, dan juga menunjukkan performa unggul dalam evaluasi chat termasuk MT-Bench dan AlpacaEval 2.0

Karakteristik model Qwen1.5-110B

Qwen1.5-110B mirip dengan model Qwen1.5 lainnya dan dibangun dengan arsitektur decoder Transformer yang sama
Terdiri dari Grouped Query Attention (GQA) sehingga efisien untuk serving model
Mendukung panjang konteks 32K token dan merupakan model multibahasa yang mendukung banyak bahasa seperti Inggris, Mandarin, Prancis, Spanyol, Jerman, Rusia, Korea, Jepang, Vietnam, dan Arab

Hasil evaluasi model bahasa dasar

Serangkaian evaluasi dilakukan pada model bahasa dasar dan dibandingkan dengan model bahasa SOTA terbaru Meta-Llama3-70B serta Mixtral-8x22B
Hasilnya menunjukkan bahwa model 110B baru ini setidaknya kompetitif dengan model Llama-3-70B dalam kemampuan dasar
Karena recipe pre-training dan post-training untuk model ini tidak diubah secara drastis, peningkatan performa dibandingkan 72B tampaknya berasal dari peningkatan ukuran model

Hasil evaluasi model chat

Model chat diuji pada MT-Bench dan AlpacaEval 2.0
Dibanding model 72B yang dirilis sebelumnya, 110B menunjukkan performa yang jauh lebih baik pada kedua benchmark tersebut
Peningkatan yang konsisten dalam evaluasi menunjukkan bahwa model bahasa dasar yang lebih kuat dan lebih besar dapat menghasilkan model chat yang lebih baik, bahkan tanpa banyak perubahan pada recipe post-training

Mengembangkan dengan Qwen1.5-110B

Untuk memahami cara menggunakannya dengan Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory, dan lainnya, disarankan membaca blog Qwen1.5

Kesimpulan

Qwen1.5-110B adalah model terbesar dalam seri Qwen1.5 dan model pertama dalam seri tersebut yang memiliki lebih dari 100 miliar parameter
Model ini menunjukkan performa yang kompetitif dengan Llama-3-70B, model SOTA yang baru dirilis, dan jauh lebih unggul daripada model 72B
Ini menunjukkan bahwa masih ada banyak potensi dalam memperbesar ukuran model untuk mencapai performa yang lebih baik
Perilisan Llama-3 menunjukkan pentingnya memperluas data ke skala yang sangat besar, tetapi diyakini bahwa pada rilis mendatang keunggulan dari kedua pendekatan dapat diraih dengan memperbesar baik data maupun ukuran model

1 komentar

xguru 2024-04-28

Alibaba, merilis model AI open-source QWEN