Perkenalan terhadap LLM (Large Language Model) open source baru dari MistralAI
Pengaturan penting dalam file params.json:
hidden_dim / dim = 14336/4096 => ekspansi MLP 3,5x
n_heads / n_kv_heads = 32/8 => multi-query 4x
"moe" => 8x top-2 mixture of experts
Kode terkait dapat dilihat di GitHub
Tidak ada video promosi yang berlebihan tentang revolusi AI
Banyak aktivitas AI sedang terjadi karena konferensi deep learning besar bernama NeurIPS sudah dekat
Kabar LLM lainnya:
Mistral/Yi mendominasi model lain di leaderboard Hugging Face dengan menggunakan model yang di-fine-tune memakai teknik baru bernama 'neural alignment'
Model 7B 'mengalahkan' sebagian besar model 70B
Model 34B yang sedang diuji terlihat sangat bagus
Jika teknik ini diterapkan pada Mistral Moe, hasilnya bisa menjadi model yang sangat unggul
OSS yang bisa dijalankan di desktop bisa menjadi titik belok penting untuk menantang GPT-4
Pendekatan Mistral:
Mistral tidak terlalu peduli pada penjelasan, tetapi gaya seperti ini terasa lebih meyakinkan daripada pengumuman korporat Google yang dipoles
Gaya pengumuman yang sederhana:
Lebih menyukai pengumuman sederhana ala tahun 90-an
Spesifikasi model Mistral:
Merilis file params.json yang memiliki struktur Mixture of Experts
Perbandingan gaya pengumuman Mistral dan Google:
Cara Mistral mengumumkan model ini kontras dengan pengumuman Gemini dari Google
Mistral tampaknya dilatih berdasarkan Megablocks dari Stanford
Strategi pemasaran Mistral:
Saat perusahaan lain fokus pada landing page dan video promosi, Mistral hanya merilis modelnya secara sederhana
Informasi publik Mistral:
Menggunakan arsitektur mixture of experts
8 expert dengan parameter 7B
Total bobot 96GB, sehingga tidak bisa dijalankan pada GPU rumahan biasa
1 komentar
Opini Hacker News
Pendapat Andrej Karpathy:
params.json:hidden_dim / dim = 14336/4096=> ekspansi MLP 3,5xn_heads / n_kv_heads = 32/8=> multi-query 4x"moe"=> 8x top-2 mixture of expertsKabar LLM lainnya:
Pendekatan Mistral:
Gaya pengumuman yang sederhana:
Spesifikasi model Mistral:
params.jsonyang memiliki struktur Mixture of ExpertsPerbandingan gaya pengumuman Mistral dan Google:
Strategi pemasaran Mistral:
Informasi publik Mistral: