Qwen1.5-110B: model 100B+ pertama dalam seri LLM open-source Qwen1.5 dari Alibaba
(qwenlm.github.io)- Dalam komunitas open-source, belakangan ini banyak bermunculan model skala besar dengan lebih dari 100 miliar parameter, yang menunjukkan performa luar biasa dalam evaluasi benchmark dan bidang chatbot
- Alibaba juga merilis Qwen1.5-110B, model 100B+ pertama dalam seri Qwen1.5
- Dalam evaluasi model dasar, performanya setara dengan Meta-Llama3-70B, dan juga menunjukkan performa unggul dalam evaluasi chat termasuk MT-Bench dan AlpacaEval 2.0
Karakteristik model Qwen1.5-110B
- Qwen1.5-110B mirip dengan model Qwen1.5 lainnya dan dibangun dengan arsitektur decoder Transformer yang sama
- Terdiri dari Grouped Query Attention (GQA) sehingga efisien untuk serving model
- Mendukung panjang konteks 32K token dan merupakan model multibahasa yang mendukung banyak bahasa seperti Inggris, Mandarin, Prancis, Spanyol, Jerman, Rusia, Korea, Jepang, Vietnam, dan Arab
Hasil evaluasi model bahasa dasar
- Serangkaian evaluasi dilakukan pada model bahasa dasar dan dibandingkan dengan model bahasa SOTA terbaru Meta-Llama3-70B serta Mixtral-8x22B
- Hasilnya menunjukkan bahwa model 110B baru ini setidaknya kompetitif dengan model Llama-3-70B dalam kemampuan dasar
- Karena recipe pre-training dan post-training untuk model ini tidak diubah secara drastis, peningkatan performa dibandingkan 72B tampaknya berasal dari peningkatan ukuran model
Hasil evaluasi model chat
- Model chat diuji pada MT-Bench dan AlpacaEval 2.0
- Dibanding model 72B yang dirilis sebelumnya, 110B menunjukkan performa yang jauh lebih baik pada kedua benchmark tersebut
- Peningkatan yang konsisten dalam evaluasi menunjukkan bahwa model bahasa dasar yang lebih kuat dan lebih besar dapat menghasilkan model chat yang lebih baik, bahkan tanpa banyak perubahan pada recipe post-training
Mengembangkan dengan Qwen1.5-110B
- Untuk memahami cara menggunakannya dengan Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory, dan lainnya, disarankan membaca blog Qwen1.5
Kesimpulan
- Qwen1.5-110B adalah model terbesar dalam seri Qwen1.5 dan model pertama dalam seri tersebut yang memiliki lebih dari 100 miliar parameter
- Model ini menunjukkan performa yang kompetitif dengan Llama-3-70B, model SOTA yang baru dirilis, dan jauh lebih unggul daripada model 72B
- Ini menunjukkan bahwa masih ada banyak potensi dalam memperbesar ukuran model untuk mencapai performa yang lebih baik
- Perilisan Llama-3 menunjukkan pentingnya memperluas data ke skala yang sangat besar, tetapi diyakini bahwa pada rilis mendatang keunggulan dari kedua pendekatan dapat diraih dengan memperbesar baik data maupun ukuran model
1 komentar
Alibaba, merilis model AI open-source QWEN