17 poin oleh xguru 2023-12-15 | 2 komentar | Bagikan ke WhatsApp
  • SLM: Small Language Model
  • Meski merupakan model 2.7B, performanya setara atau lebih baik daripada model yang hingga 25 kali lebih besar
    • Melampaui performa Mistral 7B, Llama-7B/13B
    • Dalam penalaran multi-langkah seperti coding dan matematika, bahkan lebih unggul daripada model Llama-2-70B yang 25 kali lebih besar
    • Lebih kecil daripada Google Gemini Nano 2, tetapi memberikan performa yang setara atau lebih baik
  • Dengan daya komputasi yang lebih rendah dibanding model seperti GPT-4 dan Llama-2, mampu melakukan tugas serupa seperti pembuatan teks dan deskripsi gambar
  • Karena ukurannya kecil, ini menjadi playground ideal bagi peneliti, termasuk untuk eksperimen terkait interpretabilitas mekanistis, peningkatan keamanan, atau fine-tuning untuk berbagai tugas

2 komentar

 
xguru 2023-12-15
 
xguru 2023-12-15
Opini Hacker News
  • Perbandingan jumlah parameter antara GPT-3 dan Phi-2
    • GPT-3 memiliki 174 miliar parameter.
    • Phi-2 memiliki 2,7 miliar parameter, sehingga sekitar 65 kali lebih kecil daripada GPT-3.
  • Perbandingan jumlah data pelatihan
    • GPT-3 dilatih dengan 300 miliar token.
    • Phi-2 dilatih dengan 1,4 triliun token, sehingga menggunakan sekitar 5 kali lebih banyak data dibanding GPT-3.
  • Pemerolehan bahasa manusia dan kecerdasan buatan
    • Bayi manusia membutuhkan sekitar 30 juta data pembelajaran "setara-token" untuk mempelajari bahasa.
    • Ini menunjukkan bahwa struktur biologis manusia terspesialisasi untuk pemerolehan bahasa, dan memiliki "panduan" atau batasan kuat yang mempersempit ruang hipotesis bahasa manusia yang mungkin.
    • Muncul pertanyaan apakah mungkin menemukan struktur serupa yang memungkinkan model bahasa belajar dengan data yang lebih sedikit.
  • Apakah bobot Phi-2 dibuka
    • Bobot Phi-2 telah dirilis, tetapi hanya bisa diunduh setelah login ke Azure Studio.
    • Unduhan tersedia dengan mencari halaman Phi-2 di Azure AI Studio lalu mengeklik tab "artifacts".
  • Biaya pelatihan Phi-2
    • Phi-2 dilatih selama 14 hari menggunakan 96 GPU A100.
    • Ini berarti biaya pelatihannya sekitar 30 ribu USD.
    • Jika biaya pelatihan LLM (Large Language Model) menjadi lebih murah daripada membeli mobil, hal itu bisa sangat berkontribusi pada demokratisasi AI.
  • Batasan riset pada Phi-2
    • Meski ada batasan "hanya untuk penggunaan riset", performa Phi-2 meningkatkan kemungkinan penggunaan lokal di berbagai perangkat.
    • Ada pendapat bahwa performanya sangat bagus sehingga masa depannya terlihat cerah/menakutkan.
  • Persaingan model kecil
    • Belakangan ini ada persaingan serius di ranah model kecil.
    • Tujuan utama model-model kecil ini adalah diterapkan secara lokal di ponsel/laptop dan mendorong generasi baru aplikasi/antarmuka pengguna.
  • Perbandingan performa Phi-2 dan Mistral 7B
    • Cukup mengesankan bahwa Phi-2 berukuran 2,7 miliar menunjukkan performa yang lebih baik daripada Mistral 7B yang berukuran 7 miliar.
  • Masalah akses situs web
    • Situs web tidak bisa diakses, tetapi masih bisa dilihat melalui versi cache.
  • Cara distribusi Phi-2
    • Phi-1.5 didistribusikan di huggingface, tetapi Phi-2 hanya ditambahkan ke Azure AI Studio, sehingga terkesan mendorong developer untuk mendaftar.
    • Ada pertanyaan mengapa Microsoft tidak berpartisipasi di GitHub-nya dunia ML seperti huggingface.
  • Apakah model Phi-2 bisa diunduh
    • Ada pertanyaan apakah model Phi-2 bisa diunduh untuk dijalankan secara lokal, atau hanya bisa digunakan di Azure.