Microsoft mengungkap model bahasa Phi-2 yang kecil namun kuat dengan 2.7B

xguru · 2023-12-15T09:21:19+09:00

SLM: Small Language Model Meski merupakan model 2.7B, performanya setara atau lebih baik daripada model yang hingga 25 kali lebih besar Melampaui performa Mistral 7B, Llama-7B/13B Dalam penalaran multi-langkah seperti coding dan matematika, bahkan lebih unggul daripada model Llama-2-70B yang 25 kali lebih besar Lebih kecil daripada Google Gemini Nano 2, tetapi memberikan performa yang setara atau lebih baik Dengan daya komputasi yang lebih rendah dibanding model seperti GPT-4 dan Llama-2, mampu melakukan tugas serupa seperti pembuatan teks dan deskripsi gambar Karena ukurannya kecil, ini menjadi playground ideal bagi peneliti, termasuk untuk eksperimen terkait interpretabilitas mekanistis, peningkatan keamanan, atau fine-tuning untuk berbagai tugas

(microsoft.com)

17 poin oleh xguru 2023-12-15 | 2 komentar | Bagikan ke WhatsApp

SLM: Small Language Model
Meski merupakan model 2.7B, performanya setara atau lebih baik daripada model yang hingga 25 kali lebih besar
- Melampaui performa Mistral 7B, Llama-7B/13B
- Dalam penalaran multi-langkah seperti coding dan matematika, bahkan lebih unggul daripada model Llama-2-70B yang 25 kali lebih besar
- Lebih kecil daripada Google Gemini Nano 2, tetapi memberikan performa yang setara atau lebih baik
Dengan daya komputasi yang lebih rendah dibanding model seperti GPT-4 dan Llama-2, mampu melakukan tugas serupa seperti pembuatan teks dan deskripsi gambar
Karena ukurannya kecil, ini menjadi playground ideal bagi peneliti, termasuk untuk eksperimen terkait interpretabilitas mekanistis, peningkatan keamanan, atau fine-tuning untuk berbagai tugas

2 komentar

xguru 2023-12-15

Bobot tersedia di sini https://huggingface.co/microsoft/phi-2

xguru 2023-12-15

Opini Hacker News

Perbandingan jumlah parameter antara GPT-3 dan Phi-2
- GPT-3 memiliki 174 miliar parameter.
- Phi-2 memiliki 2,7 miliar parameter, sehingga sekitar 65 kali lebih kecil daripada GPT-3.
Perbandingan jumlah data pelatihan
- GPT-3 dilatih dengan 300 miliar token.
- Phi-2 dilatih dengan 1,4 triliun token, sehingga menggunakan sekitar 5 kali lebih banyak data dibanding GPT-3.
Pemerolehan bahasa manusia dan kecerdasan buatan
- Bayi manusia membutuhkan sekitar 30 juta data pembelajaran "setara-token" untuk mempelajari bahasa.
- Ini menunjukkan bahwa struktur biologis manusia terspesialisasi untuk pemerolehan bahasa, dan memiliki "panduan" atau batasan kuat yang mempersempit ruang hipotesis bahasa manusia yang mungkin.
- Muncul pertanyaan apakah mungkin menemukan struktur serupa yang memungkinkan model bahasa belajar dengan data yang lebih sedikit.
Apakah bobot Phi-2 dibuka
- Bobot Phi-2 telah dirilis, tetapi hanya bisa diunduh setelah login ke Azure Studio.
- Unduhan tersedia dengan mencari halaman Phi-2 di Azure AI Studio lalu mengeklik tab "artifacts".
Biaya pelatihan Phi-2
- Phi-2 dilatih selama 14 hari menggunakan 96 GPU A100.
- Ini berarti biaya pelatihannya sekitar 30 ribu USD.
- Jika biaya pelatihan LLM (Large Language Model) menjadi lebih murah daripada membeli mobil, hal itu bisa sangat berkontribusi pada demokratisasi AI.
Batasan riset pada Phi-2
- Meski ada batasan "hanya untuk penggunaan riset", performa Phi-2 meningkatkan kemungkinan penggunaan lokal di berbagai perangkat.
- Ada pendapat bahwa performanya sangat bagus sehingga masa depannya terlihat cerah/menakutkan.
Persaingan model kecil
- Belakangan ini ada persaingan serius di ranah model kecil.
- Tujuan utama model-model kecil ini adalah diterapkan secara lokal di ponsel/laptop dan mendorong generasi baru aplikasi/antarmuka pengguna.
Perbandingan performa Phi-2 dan Mistral 7B
- Cukup mengesankan bahwa Phi-2 berukuran 2,7 miliar menunjukkan performa yang lebih baik daripada Mistral 7B yang berukuran 7 miliar.
Masalah akses situs web
- Situs web tidak bisa diakses, tetapi masih bisa dilihat melalui versi cache.
Cara distribusi Phi-2
- Phi-1.5 didistribusikan di huggingface, tetapi Phi-2 hanya ditambahkan ke Azure AI Studio, sehingga terkesan mendorong developer untuk mendaftar.
- Ada pertanyaan mengapa Microsoft tidak berpartisipasi di GitHub-nya dunia ML seperti huggingface.
Apakah model Phi-2 bisa diunduh
- Ada pertanyaan apakah model Phi-2 bisa diunduh untuk dijalankan secara lokal, atau hanya bisa digunakan di Azure.

Microsoft mengungkap model bahasa Phi-2 yang kecil namun kuat dengan 2.7B

Bacaan terkait

2 komentar

Opini Hacker News