Untuk menjalankan model, bisa menggunakan alat seperti Ollama, Llama.cpp, atau library Python. Memuat sekitar setengah model ke dalam RAM juga memungkinkan.
Untuk membandingkan performa model, bisa memanfaatkan benchmark tidak resmi yang disediakan di Hugging Face. Namun, perlu dicatat bahwa ini berlaku untuk model base, dan berbeda dengan model instruct fine-tuned yang digunakan dalam chat nyata.
Jika model Mixtral-8x22B-v0.1 menunjukkan performa sebaik model Mixtral 8x7b sebelumnya, ini akan menjadi model yang sangat menjanjikan.
Ada ketertarikan apakah performanya bisa kembali ke tingkat saat ChatGPT 4 pada awalnya dinilai "bekerja seperti sihir". Ada juga penyesalan bahwa performanya diturunkan demi kepatutan politik.
Tampaknya semua pihak sedang berlomba merilis model kecil terbaik sebelum peluncuran Llama3.
Dengan kuantisasi 4-bit, dibutuhkan 85GB VRAM, sehingga cukup dijalankan dengan 4 GPU konsumen 24G. Masih ada ruang tambahan untuk optimasi cache KV.
Agak aneh bahwa meski sudah lebih dari sehari sejak bobot model dipublikasikan, Mistral belum memberikan pengumuman resmi atau kartu model, dan model ini juga belum bisa digunakan di platform Mistral sendiri.
1 komentar
Opini Hacker News