1 poin oleh GN⁺ 2024-04-12 | 1 komentar | Bagikan ke WhatsApp

1 komentar

 
GN⁺ 2024-04-12
Komentar Hacker News
  • Penasaran cara termudah menjalankan model ini saat punya bobot dan hardware-nya
    Walaupun setengah model di-offload ke RAM, ingin tahu harus memuatnya dengan tool apa: Ollama, Llama.cpp, atau cukup diimpor sebagai library Python
    Juga penasaran bagaimana sebaiknya melakukan benchmark untuk membandingkannya dengan model lain, dan apakah ada tool yang siap pakai
    • Pendekatan llamafile terlihat paling bagus
      Binary-nya bisa berjalan dari command line atau menjalankan web server kecil
      llamafile menyediakan build Mixtral-8x7B-Instruct, jadi model ini mungkin juga bisa dipaketkan, dan kemungkinan dalam format terkuantisasi
      Perlu konfirmasi dari orang yang lebih paham ekosistemnya, tetapi sepertinya model baru ini juga bisa langsung dijalankan di llamafile
      https://github.com/Mozilla-Ocho/llamafile
    • Cara paling mudah adalah menjalankannya dengan vllm(https://github.com/vllm-project/vllm) di kira-kira dua A100, dan benchmark bisa dilakukan dengan lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
    • Untuk menguji LLM di MacBook, LM Studio sangat bagus: https://lmstudio.ai/
      Di dalam aplikasinya sangat mudah mencari model baru dari Hugging Face dan langsung mengujinya
    • Di Hugging Face ada pengguna bernama The Bloke, yang biasanya mengunggah model yang sudah dikuantisasi tak lama setelah model ukuran penuh keluar
      Cukup pantau halamannya sambil berharap model 4-bit muat di GPU
      Sepertinya ia sudah mengerjakannya
    • Bisa dicoba di Together di sini:
      https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
  • Postingan duplikat ada di sini: https://news.ycombinator.com/item?id=39986047
    Itu postingan yang memakai tautan tweet, bukan profil:
    https://twitter.com/MistralAI/status/1777869263778291896
  • 8x22B, ya. Kalau ini sebagus Mixtral 8x7B, masa-masa ke depan akan sangat menarik
    • Saya dengar Command R adalah open source pertama yang mengalahkan GPT-4 di benchmark
    • Karena sudah ada 8x7B, tentu tidak ada alasan menginginkan 8x7B lain, jadi ini pasti berarti lebih baik, kan?
  • Sedikit melenceng dari topik, tapi saya penasaran apakah sekarang kita sudah kembali mencapai performa ChatGPT 4 dari masa ketika orang-orang menyebutnya terasa seperti sihir
    Maksudnya patokan sebelum performanya turun besar karena dibuat lebih benar secara politis
    • Saya sudah menguji beberapa LLM di MacBook, dan menurut saya semuanya masih jauh tertinggal dibanding GPT-4 dari periode mana pun
      Namun ada banyak model setara GPT-3, dan cukup banyak juga model yang di-fine-tune untuk tugas tertentu
      Bagian yang sangat kurang pada model terbuka adalah dukungan bahasa
      Saya hanya pernah melihat satu model yang menghasilkan keluaran layak dalam bahasa Norwegia, sementara di GPT-4 hal itu tidak pernah menjadi masalah
    • Untuk standar model terbuka, menurut saya setidaknya sudah mencapai performa rilis awal ChatGPT 4
  • Apakah ini persaingan untuk merilis model kecil terbaik masing-masing sebelum Llama 3 keluar?
    • 262GB tidak bisa dibilang kecil
      Namun kalau hasil mereka nanti lebih buruk daripada Llama 3, merilisnya belakangan bisa terasa memalukan, jadi sepertinya mereka memilih mengeluarkannya sekarang
    • Melihat rumor bahwa Llama 3 akan keluar dalam dua minggu ke depan, itu cukup masuk akal
  • Mixtral 8x7B enak dipakai, dan saya menantikan untuk mencoba model ini juga
  • Benchmark tidak resmi ada di sini:
    https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
    • Akan bagus kalau ada GPT-4 di sini
      Model itulah yang masih harus dilampaui
  • Kuantisasi 4-bit sepertinya akan membutuhkan VRAM 85GB, jadi akan muat dengan baik di 4 GPU konsumen 24GB dan masih menyisakan sedikit ruang untuk optimasi KV cache
    • Kalau 4-bit, pemakaiannya bisa lebih rendah dari itu
      Karena ada cukup banyak parameter yang dibagi di antara model pakar
      Namun kalau tidak menjalankannya dengan batch size 1, konfigurasinya bisa lebih menyiksa dibanding susunan 8 GPU
      Hampir pasti sebagian besar atau semua pakar akan aktif di dalam batch
    • Kuantisasi 2-bit Mixtral 8x7B masih cukup layak untuk beberapa penggunaan bahkan di GPU 8GB
      Saya penasaran bagaimana model baru ini berjalan pada konfigurasi GPU murah kelas 8–16GB
  • Sangat penting bahwa ini adalah model dasar, bukan model instruksi
    Yang berguna untuk chat adalah model yang sudah di-fine-tune instruksi
    • Penasaran seperti apa rasanya memakai langsung model dasar yang kuat
      Apakah ia sekadar melengkapi prompt seperti melanjutkan teks?
  • Ini keluar tepat saat Llama 3 diumumkan
    • Pada hari yang sama Google Gemini Pro merilis akses multimodal konteks panjang terbuka yang nyaris lengkap, dan OpenAI juga meningkatkan GPT-4-Turbo, jadi ini hari besar dengan banyak sekali berita