8 poin oleh GN⁺ 2024-04-24 | 2 komentar | Bagikan ke WhatsApp

Pengenalan model bahasa phi-3-mini

  • phi-3-mini adalah model bahasa dengan 3.8B parameter, dilatih menggunakan 3,3 triliun token
  • Berdasarkan benchmark akademik dan hasil pengujian internal, model ini menunjukkan performa yang sebanding dengan model seperti Mixtral 8x7B dan GPT-3.5 (MMLU 69%, MT-bench 8,38)
  • Meski ukurannya cukup kecil untuk dideploy di ponsel, performanya tetap sangat baik
  • Model ini terdiri dari versi yang diperluas dari dataset yang digunakan pada phi-2, dengan data web yang telah difilter dan data sintetis
  • Model ini juga disejajarkan lebih lanjut untuk ketahanan, keamanan, dan format chat

Pengenalan model phi-3-small dan phi-3-medium

  • Hasil awal penskalaan parameter untuk phi-3-small dan phi-3-medium, yaitu model 7B dan 14B yang dilatih dengan 4,8 triliun token, juga disediakan
  • Menunjukkan performa yang jauh lebih baik daripada phi-3-mini (MMLU 75%, 78%, MT-bench 8,7 dan 8,9)

Opini GN⁺

  • Sangat mengesankan bahwa model bahasa berukuran kecil yang dapat digunakan di ponsel mampu menunjukkan performa tinggi. Ke depan, potensi pemanfaatan AI di perangkat mobile tampaknya akan semakin besar
  • Namun, mungkin ada kekhawatiran terkait perlindungan data pribadi dan isu privasi. Meski pemrosesan dilakukan di perangkat lokal, data pengguna tetap harus dikelola dengan aman
  • Pendekatan pelatihan yang memanfaatkan data web dan data sintetis menarik. Kemungkinan dibutuhkan banyak upaya dalam pengumpulan dan pemurnian data. Ini menjadi contoh bahwa data berkualitas tinggi menghasilkan performa yang baik
  • Hasil perbandingan performa berdasarkan ukuran model juga menarik. Memilih model dengan ukuran yang tepat tampaknya penting dari sisi efisiensi
  • Model bahasa open source ringan seperti StableLM dari Stability AI dan Claude dari Anthropic mulai bermunculan. Diharapkan akan muncul beragam kasus penggunaan

2 komentar

 
GN⁺ 2024-04-24
Komentar Hacker News
  • Hasil benchmark model Phi-3 perlu ditafsirkan dengan hati-hati. Ada preseden bahwa performa nyata model Phi-2 sebelumnya lebih rendah daripada angka benchmark-nya. Ini belum tentu langsung tercermin dalam penggunaan nyata atau peringkat leaderboard LMSYS.

  • Meski begitu, Phi-3 menunjukkan performa yang baik dengan ukuran model yang kecil. Ini mengindikasikan bahwa metode distillation melalui "data sintetis" untuk mentransfer performa GPT-4 ke model kecil bisa efektif. Ini memberi gambaran tentang potensi pendekatan ala Chinchilla, yakni melatih model besar secara optimal lalu mendistilasikannya ke model kecil.

  • Di leaderboard bahasa Inggris LMSYS, model-model Phi-3 menunjukkan performa yang sebanding dengan Llama 3, GPT-3.5, dan lainnya. Khususnya, Phi-3-mini 3.8B dengan 3.8B parameter mampu menandingi Llama 3 8B. Ini mengisyaratkan kemungkinan munculnya LLM open-source setingkat GPT-4 yang dapat berjalan di ponsel.

  • Namun, benchmark semacam ini punya keterbatasan karena mudah di-gaming oleh model. Perlu lebih memperhatikan performa secara keseluruhan daripada task individual. Tampaknya diperlukan peninjauan yang cermat dari berbagai sudut pandang.

  • Sebagian model Phi-3 telah dirilis di HuggingFace. Hal ini diperkirakan akan mempermudah pemanfaatan model.

  • Pelatihan dengan 3,3 triliun token data sintetis yang sangat besar berkontribusi pada peringanan model. Ini juga bisa membantu mengatasi masalah hak cipta.

  • Namun dalam penggunaan nyata, model ini sering banyak berhalusinasi di luar cakupan data latihnya. Ini mungkin efektif untuk finetuning task yang sempit, tetapi tampaknya sulit menggantikan GPT-3.5 dalam percakapan umum.

  • Bobot model telah dirilis di HuggingFace dalam versi konteks 4k dan 128k. Hal ini memicu minat terhadap kemungkinan penggunaan untuk finetuning maupun RAG (Retrieval-Augmented Generation).