Mistral AI meluncurkan model MOE 8x22B baru

(twitter.com/MistralAI)

1 poin oleh GN⁺ 2024-04-12 | 1 komentar | Bagikan ke WhatsApp

1 komentar

GN⁺ 2024-04-12

Komentar Hacker News

Penasaran cara termudah menjalankan model ini saat punya bobot dan hardware-nya
Walaupun setengah model di-offload ke RAM, ingin tahu harus memuatnya dengan tool apa: Ollama, Llama.cpp, atau cukup diimpor sebagai library Python
Juga penasaran bagaimana sebaiknya melakukan benchmark untuk membandingkannya dengan model lain, dan apakah ada tool yang siap pakai
- Pendekatan llamafile terlihat paling bagus
  Binary-nya bisa berjalan dari command line atau menjalankan web server kecil
  llamafile menyediakan build Mixtral-8x7B-Instruct, jadi model ini mungkin juga bisa dipaketkan, dan kemungkinan dalam format terkuantisasi
  Perlu konfirmasi dari orang yang lebih paham ekosistemnya, tetapi sepertinya model baru ini juga bisa langsung dijalankan di llamafile
  https://github.com/Mozilla-Ocho/llamafile
- Cara paling mudah adalah menjalankannya dengan vllm(https://github.com/vllm-project/vllm) di kira-kira dua A100, dan benchmark bisa dilakukan dengan lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
- Untuk menguji LLM di MacBook, LM Studio sangat bagus: https://lmstudio.ai/
  Di dalam aplikasinya sangat mudah mencari model baru dari Hugging Face dan langsung mengujinya
- Di Hugging Face ada pengguna bernama The Bloke, yang biasanya mengunggah model yang sudah dikuantisasi tak lama setelah model ukuran penuh keluar
  Cukup pantau halamannya sambil berharap model 4-bit muat di GPU
  Sepertinya ia sudah mengerjakannya
- Bisa dicoba di Together di sini:
  https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
Postingan duplikat ada di sini: https://news.ycombinator.com/item?id=39986047
Itu postingan yang memakai tautan tweet, bukan profil:
https://twitter.com/MistralAI/status/1777869263778291896
8x22B, ya. Kalau ini sebagus Mixtral 8x7B, masa-masa ke depan akan sangat menarik
- Saya dengar Command R adalah open source pertama yang mengalahkan GPT-4 di benchmark
- Karena sudah ada 8x7B, tentu tidak ada alasan menginginkan 8x7B lain, jadi ini pasti berarti lebih baik, kan?
Sedikit melenceng dari topik, tapi saya penasaran apakah sekarang kita sudah kembali mencapai performa ChatGPT 4 dari masa ketika orang-orang menyebutnya terasa seperti sihir
Maksudnya patokan sebelum performanya turun besar karena dibuat lebih benar secara politis
- Saya sudah menguji beberapa LLM di MacBook, dan menurut saya semuanya masih jauh tertinggal dibanding GPT-4 dari periode mana pun
  Namun ada banyak model setara GPT-3, dan cukup banyak juga model yang di-fine-tune untuk tugas tertentu
  Bagian yang sangat kurang pada model terbuka adalah dukungan bahasa
  Saya hanya pernah melihat satu model yang menghasilkan keluaran layak dalam bahasa Norwegia, sementara di GPT-4 hal itu tidak pernah menjadi masalah
- Untuk standar model terbuka, menurut saya setidaknya sudah mencapai performa rilis awal ChatGPT 4
Apakah ini persaingan untuk merilis model kecil terbaik masing-masing sebelum Llama 3 keluar?
- 262GB tidak bisa dibilang kecil
  Namun kalau hasil mereka nanti lebih buruk daripada Llama 3, merilisnya belakangan bisa terasa memalukan, jadi sepertinya mereka memilih mengeluarkannya sekarang
- Melihat rumor bahwa Llama 3 akan keluar dalam dua minggu ke depan, itu cukup masuk akal
Mixtral 8x7B enak dipakai, dan saya menantikan untuk mencoba model ini juga
Benchmark tidak resmi ada di sini:
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
- Akan bagus kalau ada GPT-4 di sini
  Model itulah yang masih harus dilampaui
Kuantisasi 4-bit sepertinya akan membutuhkan VRAM 85GB, jadi akan muat dengan baik di 4 GPU konsumen 24GB dan masih menyisakan sedikit ruang untuk optimasi KV cache
- Kalau 4-bit, pemakaiannya bisa lebih rendah dari itu
  Karena ada cukup banyak parameter yang dibagi di antara model pakar
  Namun kalau tidak menjalankannya dengan batch size 1, konfigurasinya bisa lebih menyiksa dibanding susunan 8 GPU
  Hampir pasti sebagian besar atau semua pakar akan aktif di dalam batch
- Kuantisasi 2-bit Mixtral 8x7B masih cukup layak untuk beberapa penggunaan bahkan di GPU 8GB
  Saya penasaran bagaimana model baru ini berjalan pada konfigurasi GPU murah kelas 8–16GB
Sangat penting bahwa ini adalah model dasar, bukan model instruksi
Yang berguna untuk chat adalah model yang sudah di-fine-tune instruksi
- Penasaran seperti apa rasanya memakai langsung model dasar yang kuat
  Apakah ia sekadar melengkapi prompt seperti melanjutkan teks?
Ini keluar tepat saat Llama 3 diumumkan
- Pada hari yang sama Google Gemini Pro merilis akses multimodal konteks panjang terbuka yang nyaris lengkap, dan OpenAI juga meningkatkan GPT-4-Turbo, jadi ini hari besar dengan banyak sekali berita

Mistral AI meluncurkan model MOE 8x22B baru

Bacaan terkait

1 komentar

Komentar Hacker News