Penasaran cara termudah menjalankan model ini saat punya bobot dan hardware-nya
Walaupun setengah model di-offload ke RAM, ingin tahu harus memuatnya dengan tool apa: Ollama, Llama.cpp, atau cukup diimpor sebagai library Python
Juga penasaran bagaimana sebaiknya melakukan benchmark untuk membandingkannya dengan model lain, dan apakah ada tool yang siap pakai
Pendekatan llamafile terlihat paling bagus
Binary-nya bisa berjalan dari command line atau menjalankan web server kecil
llamafile menyediakan build Mixtral-8x7B-Instruct, jadi model ini mungkin juga bisa dipaketkan, dan kemungkinan dalam format terkuantisasi
Perlu konfirmasi dari orang yang lebih paham ekosistemnya, tetapi sepertinya model baru ini juga bisa langsung dijalankan di llamafile https://github.com/Mozilla-Ocho/llamafile
Untuk menguji LLM di MacBook, LM Studio sangat bagus: https://lmstudio.ai/
Di dalam aplikasinya sangat mudah mencari model baru dari Hugging Face dan langsung mengujinya
Di Hugging Face ada pengguna bernama The Bloke, yang biasanya mengunggah model yang sudah dikuantisasi tak lama setelah model ukuran penuh keluar
Cukup pantau halamannya sambil berharap model 4-bit muat di GPU
Sepertinya ia sudah mengerjakannya
8x22B, ya. Kalau ini sebagus Mixtral 8x7B, masa-masa ke depan akan sangat menarik
Saya dengar Command R adalah open source pertama yang mengalahkan GPT-4 di benchmark
Karena sudah ada 8x7B, tentu tidak ada alasan menginginkan 8x7B lain, jadi ini pasti berarti lebih baik, kan?
Sedikit melenceng dari topik, tapi saya penasaran apakah sekarang kita sudah kembali mencapai performa ChatGPT 4 dari masa ketika orang-orang menyebutnya terasa seperti sihir
Maksudnya patokan sebelum performanya turun besar karena dibuat lebih benar secara politis
Saya sudah menguji beberapa LLM di MacBook, dan menurut saya semuanya masih jauh tertinggal dibanding GPT-4 dari periode mana pun
Namun ada banyak model setara GPT-3, dan cukup banyak juga model yang di-fine-tune untuk tugas tertentu
Bagian yang sangat kurang pada model terbuka adalah dukungan bahasa
Saya hanya pernah melihat satu model yang menghasilkan keluaran layak dalam bahasa Norwegia, sementara di GPT-4 hal itu tidak pernah menjadi masalah
Untuk standar model terbuka, menurut saya setidaknya sudah mencapai performa rilis awal ChatGPT 4
Apakah ini persaingan untuk merilis model kecil terbaik masing-masing sebelum Llama 3 keluar?
262GB tidak bisa dibilang kecil
Namun kalau hasil mereka nanti lebih buruk daripada Llama 3, merilisnya belakangan bisa terasa memalukan, jadi sepertinya mereka memilih mengeluarkannya sekarang
Melihat rumor bahwa Llama 3 akan keluar dalam dua minggu ke depan, itu cukup masuk akal
Mixtral 8x7B enak dipakai, dan saya menantikan untuk mencoba model ini juga
Akan bagus kalau ada GPT-4 di sini
Model itulah yang masih harus dilampaui
Kuantisasi 4-bit sepertinya akan membutuhkan VRAM 85GB, jadi akan muat dengan baik di 4 GPU konsumen 24GB dan masih menyisakan sedikit ruang untuk optimasi KV cache
Kalau 4-bit, pemakaiannya bisa lebih rendah dari itu
Karena ada cukup banyak parameter yang dibagi di antara model pakar
Namun kalau tidak menjalankannya dengan batch size 1, konfigurasinya bisa lebih menyiksa dibanding susunan 8 GPU
Hampir pasti sebagian besar atau semua pakar akan aktif di dalam batch
Kuantisasi 2-bit Mixtral 8x7B masih cukup layak untuk beberapa penggunaan bahkan di GPU 8GB
Saya penasaran bagaimana model baru ini berjalan pada konfigurasi GPU murah kelas 8–16GB
Sangat penting bahwa ini adalah model dasar, bukan model instruksi
Yang berguna untuk chat adalah model yang sudah di-fine-tune instruksi
Penasaran seperti apa rasanya memakai langsung model dasar yang kuat
Apakah ia sekadar melengkapi prompt seperti melanjutkan teks?
Ini keluar tepat saat Llama 3 diumumkan
Pada hari yang sama Google Gemini Pro merilis akses multimodal konteks panjang terbuka yang nyaris lengkap, dan OpenAI juga meningkatkan GPT-4-Turbo, jadi ini hari besar dengan banyak sekali berita
1 komentar
Komentar Hacker News
Walaupun setengah model di-offload ke RAM, ingin tahu harus memuatnya dengan tool apa: Ollama, Llama.cpp, atau cukup diimpor sebagai library Python
Juga penasaran bagaimana sebaiknya melakukan benchmark untuk membandingkannya dengan model lain, dan apakah ada tool yang siap pakai
Binary-nya bisa berjalan dari command line atau menjalankan web server kecil
llamafile menyediakan build Mixtral-8x7B-Instruct, jadi model ini mungkin juga bisa dipaketkan, dan kemungkinan dalam format terkuantisasi
Perlu konfirmasi dari orang yang lebih paham ekosistemnya, tetapi sepertinya model baru ini juga bisa langsung dijalankan di llamafile
https://github.com/Mozilla-Ocho/llamafile
Di dalam aplikasinya sangat mudah mencari model baru dari Hugging Face dan langsung mengujinya
Cukup pantau halamannya sambil berharap model 4-bit muat di GPU
Sepertinya ia sudah mengerjakannya
https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
Itu postingan yang memakai tautan tweet, bukan profil:
https://twitter.com/MistralAI/status/1777869263778291896
Maksudnya patokan sebelum performanya turun besar karena dibuat lebih benar secara politis
Namun ada banyak model setara GPT-3, dan cukup banyak juga model yang di-fine-tune untuk tugas tertentu
Bagian yang sangat kurang pada model terbuka adalah dukungan bahasa
Saya hanya pernah melihat satu model yang menghasilkan keluaran layak dalam bahasa Norwegia, sementara di GPT-4 hal itu tidak pernah menjadi masalah
Namun kalau hasil mereka nanti lebih buruk daripada Llama 3, merilisnya belakangan bisa terasa memalukan, jadi sepertinya mereka memilih mengeluarkannya sekarang
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
Model itulah yang masih harus dilampaui
Karena ada cukup banyak parameter yang dibagi di antara model pakar
Namun kalau tidak menjalankannya dengan batch size 1, konfigurasinya bisa lebih menyiksa dibanding susunan 8 GPU
Hampir pasti sebagian besar atau semua pakar akan aktif di dalam batch
Saya penasaran bagaimana model baru ini berjalan pada konfigurasi GPU murah kelas 8–16GB
Yang berguna untuk chat adalah model yang sudah di-fine-tune instruksi
Apakah ia sekadar melengkapi prompt seperti melanjutkan teks?