2 poin oleh GN⁺ 2023-12-09 | 1 komentar | Bagikan ke WhatsApp

1 komentar

 
GN⁺ 2023-12-09
Opini Hacker News
  • Pendapat Andrej Karpathy:

    • Perkenalan terhadap LLM (Large Language Model) open source baru dari MistralAI
    • Pengaturan penting dalam file params.json:
      • hidden_dim / dim = 14336/4096 => ekspansi MLP 3,5x
      • n_heads / n_kv_heads = 32/8 => multi-query 4x
      • "moe" => 8x top-2 mixture of experts
    • Kode terkait dapat dilihat di GitHub
    • Tidak ada video promosi yang berlebihan tentang revolusi AI
    • Banyak aktivitas AI sedang terjadi karena konferensi deep learning besar bernama NeurIPS sudah dekat
  • Kabar LLM lainnya:

    • Mistral/Yi mendominasi model lain di leaderboard Hugging Face dengan menggunakan model yang di-fine-tune memakai teknik baru bernama 'neural alignment'
    • Model 7B 'mengalahkan' sebagian besar model 70B
    • Model 34B yang sedang diuji terlihat sangat bagus
    • Jika teknik ini diterapkan pada Mistral Moe, hasilnya bisa menjadi model yang sangat unggul
    • OSS yang bisa dijalankan di desktop bisa menjadi titik belok penting untuk menantang GPT-4
  • Pendekatan Mistral:

    • Mistral tidak terlalu peduli pada penjelasan, tetapi gaya seperti ini terasa lebih meyakinkan daripada pengumuman korporat Google yang dipoles
  • Gaya pengumuman yang sederhana:

    • Lebih menyukai pengumuman sederhana ala tahun 90-an
  • Spesifikasi model Mistral:

    • Merilis file params.json yang memiliki struktur Mixture of Experts
  • Perbandingan gaya pengumuman Mistral dan Google:

    • Cara Mistral mengumumkan model ini kontras dengan pengumuman Gemini dari Google
    • Mistral tampaknya dilatih berdasarkan Megablocks dari Stanford
  • Strategi pemasaran Mistral:

    • Saat perusahaan lain fokus pada landing page dan video promosi, Mistral hanya merilis modelnya secara sederhana
  • Informasi publik Mistral:

    • Menggunakan arsitektur mixture of experts
    • 8 expert dengan parameter 7B
    • Total bobot 96GB, sehingga tidak bisa dijalankan pada GPU rumahan biasa