Pengenalan model bahasa phi-3-mini
- phi-3-mini adalah model bahasa dengan 3.8B parameter, dilatih menggunakan 3,3 triliun token
- Berdasarkan benchmark akademik dan hasil pengujian internal, model ini menunjukkan performa yang sebanding dengan model seperti Mixtral 8x7B dan GPT-3.5 (MMLU 69%, MT-bench 8,38)
- Meski ukurannya cukup kecil untuk dideploy di ponsel, performanya tetap sangat baik
- Model ini terdiri dari versi yang diperluas dari dataset yang digunakan pada phi-2, dengan data web yang telah difilter dan data sintetis
- Model ini juga disejajarkan lebih lanjut untuk ketahanan, keamanan, dan format chat
Pengenalan model phi-3-small dan phi-3-medium
- Hasil awal penskalaan parameter untuk phi-3-small dan phi-3-medium, yaitu model 7B dan 14B yang dilatih dengan 4,8 triliun token, juga disediakan
- Menunjukkan performa yang jauh lebih baik daripada phi-3-mini (MMLU 75%, 78%, MT-bench 8,7 dan 8,9)
Opini GN⁺
- Sangat mengesankan bahwa model bahasa berukuran kecil yang dapat digunakan di ponsel mampu menunjukkan performa tinggi. Ke depan, potensi pemanfaatan AI di perangkat mobile tampaknya akan semakin besar
- Namun, mungkin ada kekhawatiran terkait perlindungan data pribadi dan isu privasi. Meski pemrosesan dilakukan di perangkat lokal, data pengguna tetap harus dikelola dengan aman
- Pendekatan pelatihan yang memanfaatkan data web dan data sintetis menarik. Kemungkinan dibutuhkan banyak upaya dalam pengumpulan dan pemurnian data. Ini menjadi contoh bahwa data berkualitas tinggi menghasilkan performa yang baik
- Hasil perbandingan performa berdasarkan ukuran model juga menarik. Memilih model dengan ukuran yang tepat tampaknya penting dari sisi efisiensi
- Model bahasa open source ringan seperti StableLM dari Stability AI dan Claude dari Anthropic mulai bermunculan. Diharapkan akan muncul beragam kasus penggunaan
2 komentar
Microsoft merilis model bahasa Phi-2 yang kecil namun kuat dengan 2.7B
Komentar Hacker News
Hasil benchmark model Phi-3 perlu ditafsirkan dengan hati-hati. Ada preseden bahwa performa nyata model Phi-2 sebelumnya lebih rendah daripada angka benchmark-nya. Ini belum tentu langsung tercermin dalam penggunaan nyata atau peringkat leaderboard LMSYS.
Meski begitu, Phi-3 menunjukkan performa yang baik dengan ukuran model yang kecil. Ini mengindikasikan bahwa metode distillation melalui "data sintetis" untuk mentransfer performa GPT-4 ke model kecil bisa efektif. Ini memberi gambaran tentang potensi pendekatan ala Chinchilla, yakni melatih model besar secara optimal lalu mendistilasikannya ke model kecil.
Di leaderboard bahasa Inggris LMSYS, model-model Phi-3 menunjukkan performa yang sebanding dengan Llama 3, GPT-3.5, dan lainnya. Khususnya, Phi-3-mini 3.8B dengan 3.8B parameter mampu menandingi Llama 3 8B. Ini mengisyaratkan kemungkinan munculnya LLM open-source setingkat GPT-4 yang dapat berjalan di ponsel.
Namun, benchmark semacam ini punya keterbatasan karena mudah di-gaming oleh model. Perlu lebih memperhatikan performa secara keseluruhan daripada task individual. Tampaknya diperlukan peninjauan yang cermat dari berbagai sudut pandang.
Sebagian model Phi-3 telah dirilis di HuggingFace. Hal ini diperkirakan akan mempermudah pemanfaatan model.
Pelatihan dengan 3,3 triliun token data sintetis yang sangat besar berkontribusi pada peringanan model. Ini juga bisa membantu mengatasi masalah hak cipta.
Namun dalam penggunaan nyata, model ini sering banyak berhalusinasi di luar cakupan data latihnya. Ini mungkin efektif untuk finetuning task yang sempit, tetapi tampaknya sulit menggantikan GPT-3.5 dalam percakapan umum.
Bobot model telah dirilis di HuggingFace dalam versi konteks 4k dan 128k. Hal ini memicu minat terhadap kemungkinan penggunaan untuk finetuning maupun RAG (Retrieval-Augmented Generation).