- SLM: Small Language Model
- Meski merupakan model 2.7B, performanya setara atau lebih baik daripada model yang hingga 25 kali lebih besar
- Melampaui performa Mistral 7B, Llama-7B/13B
- Dalam penalaran multi-langkah seperti coding dan matematika, bahkan lebih unggul daripada model Llama-2-70B yang 25 kali lebih besar
- Lebih kecil daripada Google Gemini Nano 2, tetapi memberikan performa yang setara atau lebih baik
- Dengan daya komputasi yang lebih rendah dibanding model seperti GPT-4 dan Llama-2, mampu melakukan tugas serupa seperti pembuatan teks dan deskripsi gambar
- Karena ukurannya kecil, ini menjadi playground ideal bagi peneliti, termasuk untuk eksperimen terkait interpretabilitas mekanistis, peningkatan keamanan, atau fine-tuning untuk berbagai tugas
2 komentar
Bobot tersedia di sini https://huggingface.co/microsoft/phi-2
Opini Hacker News