1 poin oleh GN⁺ 2024-01-10 | 1 komentar | Bagikan ke WhatsApp

Pengenalan Mixtral of Experts

  • Mixtral 8x7B adalah model bahasa Sparse Mixture of Experts (SMoE).
  • Mixtral memiliki arsitektur yang sama dengan Mistral 7B, tetapi setiap layer terdiri dari 8 blok feedforward (expert).
  • Untuk setiap token, jaringan router memilih dua expert yang akan memproses status saat ini dan menggabungkan output keduanya.

Performa dan benchmark

  • Setiap token dapat mengakses 47B parameter, tetapi saat inferensi hanya menggunakan 13B parameter aktif.
  • Mixtral dilatih dengan ukuran konteks 32k token, serta melampaui atau menyamai Llama 2 70B dan GPT-3.5 di semua benchmark yang dievaluasi.
  • Khususnya, model ini jauh melampaui Llama 2 70B pada benchmark matematika, pembuatan kode, dan multibahasa.

Fine-tuning model dan lisensi

  • Mixtral 8x7B - Instruct, yaitu model yang di-fine-tuning agar mengikuti instruksi, melampaui GPT-3.5 Turbo, Claude-2.1, Gemini Pro, dan Llama 2 70B - chat pada benchmark manusia.
  • Baik model dasar maupun model instruct dirilis di bawah lisensi Apache 2.0.

Opini GN⁺

  • Mixtral 8x7B dinilai menunjukkan performa yang sangat unggul dibandingkan model bahasa yang sudah ada. Ini merupakan indikator penting dari kemajuan di bidang pemrosesan bahasa AI.
  • Khususnya, peningkatan performa pada berbagai bahasa dan pembuatan kode dapat memberi dampak positif pada beragam bidang aplikasi seperti terjemahan mesin dan pemrograman otomatis.
  • Perilisannya di bawah lisensi Apache 2.0 memberi peneliti dan pengembang kesempatan untuk menggunakan dan meningkatkan model ini secara bebas, sehingga dapat berkontribusi pada pertumbuhan komunitas AI open source.

1 komentar

 
GN⁺ 2024-01-10
Komentar Hacker News
  • Diskusi tentang model Mixtral 8x7B

    • Model Mixtral 8x7B telah digunakan sejak sekitar sebulan lalu dan menunjukkan performa yang sangat baik pada ukuran 13B.
    • Model ini menempati peringkat tinggi dibanding model pesaing, dan sangat berguna untuk penggunaan Mac sehari-hari seperti chat dan input kode.
    • Muncul kemungkinan bahwa 8 ahli yang berawal dari Mistral 7B berkembang ke arah yang berbeda-beda.
    • Dalam kasus Mistral, tampaknya melatih jaringan 8x7B tidak memerlukan usaha sebesar melatih 8 jaringan 7B secara terpisah.
    • Di bidang LLM, inovasi cepat masih terus berlangsung, dengan hadirnya riset baru seperti Calm dan model eksperimental seperti Goliath-120b.
    • Diperkirakan model dengan performa baik di perangkat keras konsumen akan muncul pada paruh pertama 2024.
  • Performa model dan kegunaannya

    • Model ini menggunakan parameter 13b, berjalan mulus dengan kualitas tinggi di 3090, melampaui GPT-3.5 di humaneval, dan mendukung konteks 32k.
    • 3090 adalah perangkat keras kelas konsumen yang umum digunakan di kalangan gamer.
    • Ada harapan para pengembang game akan mulai memanfaatkan Mixtral di dalam game.
  • Cara menggunakan model

    • Model Mixtral dirilis sebagai Llamafile oleh Mozilla/jart, dan pengguna dapat mengunduh lalu menjalankannya.
  • Penggunaan di Mac silicon

    • Pengguna Mac silicon dapat mengunduh Mixtral melalui ollama.ai, lalu membangun web UI menggunakan ollama-webui.
  • Berita dan diskusi terkait

    • Tersedia tautan ke berita dan diskusi terbaru tentang model Mixtral.
  • Performa benchmark model

    • Mixtral jauh mengungguli model Llama 2 70B pada benchmark matematika, generasi kode, dan multibahasa.
    • Ada ketertarikan pada performanya di bidang matematika, yang tampaknya masih belum terselesaikan secara efektif.
  • Pendapat kritis terhadap makalahnya

    • Ada kritik bahwa makalah tentang LLM kurang memiliki detail.
    • Disebutkan bahwa penjelasan tentang bagaimana para ahli dilatih dan dataset apa yang digunakan tidak disertakan.
  • Isi wawancara pendiri Mistral

    • Dalam wawancara podcast A16Z, pendiri Mistral menyebut mereka memiliki beberapa model internal di antara tingkat chatGPT dan GPT4.
    • Berdasarkan rilis berkualitas tinggi sejauh ini, ada ekspektasi besar terhadap open source LLM.
  • Penjelasan tiap model ahli

    • Makalah tersebut tidak menjelaskan apakah salah satu dari 8 model dikhususkan untuk terjemahan multibahasa, atau model lain untuk coding.
  • Harapan atas dirilisnya model multimodal

    • Perkembangan model yang hanya menangani teks sudah mengesankan, tetapi ada rasa penasaran apakah perilaku GPT-4 yang "muncul" bukan disebabkan oleh pelatihan multimodal.
    • Ada minat apakah model kecil yang mencakup multimodal akan menunjukkan lompatan serupa.