9 poin oleh GN⁺ 2024-04-18 | 6 komentar | Bagikan ke WhatsApp
  • "Lebih murah, lebih baik, lebih cepat, dan lebih kuat"
  • Model Sparse Mixture-of-Experts(SMoE) yang hanya menggunakan 39B parameter aktif dari total 141B parameter, sehingga sangat unggul dalam efisiensi biaya dibanding ukuran modelnya

Fitur utama Mixtral 8x22B

  • Fasih dalam bahasa Inggris, Prancis, Italia, Jerman, dan Spanyol
  • Unggul dalam matematika dan pemrograman
  • Mendukung function calling secara bawaan, dan bersama mode output terbatas yang diimplementasikan di la Plateforme, memungkinkan pengembangan aplikasi skala besar dan modernisasi tech stack
  • Jendela konteks 64K token memungkinkan recall informasi yang akurat dari dokumen dalam jumlah besar

Model yang benar-benar terbuka

  • Mistral AI meyakini kekuatan keterbukaan dan distribusi luas untuk mendorong inovasi dan kolaborasi dalam AI
  • Mixtral 8x22B didistribusikan dengan Apache 2.0, lisensi open source yang paling permisif, sehingga siapa pun dapat menggunakan model ini tanpa batasan

Efisiensi terbaik

  • Mistral AI membangun model yang memberikan performa terbaik dibanding biaya untuk setiap ukuran model, sehingga menawarkan rasio performa terhadap biaya terbaik di antara model yang tersedia bagi komunitas
  • Mixtral 8x22B merupakan perpanjangan alami dari keluarga model terbuka Mistral AI. Berkat pola aktivasi sparse, model ini lebih cepat daripada model Dense 70B sekaligus menawarkan lebih banyak kemampuan dibanding model open weight lain yang didistribusikan dengan lisensi permisif maupun restriktif. Ketersediaan model dasar juga menjadikannya fondasi yang sangat cocok untuk use case fine-tuning

Performa terbuka yang tak tertandingi

Penalaran dan pengetahuan

  • Mixtral 8x22B dioptimalkan untuk penalaran
  • Pada benchmark akal sehat, penalaran, dan pengetahuan (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS), model ini menunjukkan performa terbaik di antara model LLM terbuka kelas atas

Kemampuan multibahasa

  • Mixtral 8x22B memiliki kemampuan multibahasa secara bawaan
  • Pada benchmark HellaSwag, Arc Challenge, dan MMLU dalam bahasa Prancis, Jerman, Spanyol, dan Italia, model ini jauh melampaui LLaMA 2 70B

Matematika dan pemrograman

  • Mixtral 8x22B menunjukkan performa terbaik untuk tugas pemrograman dan matematika dibanding model terbuka lain
  • Pada benchmark pemrograman dan matematika (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4), model ini mencatat performa tertinggi di antara model terbuka terdepan
  • Versi Instructed dari Mixtral 8x22B yang diumumkan hari ini memiliki performa matematika yang lebih unggul lagi, dengan skor 90.8% pada GSM8K maj@8 dan 44.6% pada Math maj@4

Opini GN⁺

  • Mixtral 8x22B adalah model terbesar di antara model terbuka Mistral, namun tetap sangat efisien dari sisi biaya berkat pemanfaatan sparsity. Ini layak diperhatikan sebagai salah satu arah perkembangan model LLM open source
  • Performa multibahasa yang unggul dibanding ukuran model, serta kemampuan matematika/pemrogramannya, tampak menjadi poin pembeda Mixtral 8x22B. Namun, untuk bahasa selain Inggris, cakupan bahasa yang didukung masih relatif sempit, dan jika dibandingkan dengan LLM terbaru seperti GPT-4, kemampuan pemrograman maupun matematikanya masih tertinggal
  • Penerapan lisensi Apache 2.0, yang memungkinkan siapa pun memanfaatkannya secara bebas, merupakan keunggulan, tetapi potensi penyalahgunaannya juga tampak tinggi. Upaya komunitas untuk pengembangan dan pemanfaatan model AI open source yang bertanggung jawab tampaknya semakin dibutuhkan
  • Kemampuan untuk mengembangkan aplikasi dan memodernisasi tech stack dengan memanfaatkan model Mixtral memang menarik, tetapi untuk diterapkan pada layanan berskala besar tampaknya masih ada keterbatasan teknis dan biaya. Namun demikian, diharapkan akan semakin banyak contoh inovasi berbasis open source
  • Di Korea, KakaoBrain, NAVER, dan LG AI Research juga sedang mengembangkan LLM mereka sendiri. Dari sisi spesialisasi untuk pasar Korea, seperti performa pemrosesan bahasa Korea, model-model ini tampaknya akan memiliki daya saing

6 komentar

 
dormis 2024-04-19

Sepertinya sudah terdaftar agar bisa langsung digunakan di Azure AI Studio. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

 
vkehfdl1 2024-04-18

Polyglot dibuat oleh Tunib ai dan EleutherAI, bukan Kakao Brain. Sepertinya ada halusinasi ya T_T

 
xguru 2024-04-19

Ah, benar juga. Sudah saya perbaiki. Terima kasih.

 
xguru 2024-04-18

Kalau diminta menyampaikan pendapat ke Claude Opus, kadang dia menyelipkan pembicaraan tentang dalam negeri seperti ini. Menarik juga, haha

 
GN⁺ 2024-04-18
Opini Hacker News

Ringkasan:

  • Mencoba memasukkan pertanyaan terkait pajak ke ChatGPT, tetapi yang muncul justru iklan layanan penulisan esai
  • Meminta penjelasan sederhana tentang konsep "Mixture-of-Experts"
    • Memahami konsep adanya para ahli bawahan, tetapi penasaran bagaimana tiap bidang keahlian ditentukan selama pelatihan
  • Kekecewaan terhadap ukuran context window 64K token
    • Tidak berhasil menyamai 128K milik GPT-4 Turbo, dan ini bisa menjadi bahan candaan ke depannya
    • Di masa depan diperkirakan akan meningkat hingga level 1 triliun token
  • Menanyakan cara terbaik menjalankan LLM di MacBook Pro
    • LMStudio antarmukanya tidak disukai, dan Ollama terasa tidak nyaman digunakan lewat CLI
    • Lebih menyukai solusi seperti OpenAI yang memungkinkan pengaturan detail dan pengeditan prompt yang mudah
  • Keterbatasan model terbuka
    • Jika tidak ada akses ke data pelatihan, model tidak bisa direplikasi
  • Hasil perbandingan antara seri Mistral dan performanya
  • Keuntungan menjalankan startup AI
    • Setiap kali model besar baru dirilis, produk otomatis ikut membaik
  • Pertanyaan apakah versi LLM "non-instructed" adalah versi tanpa panduan dari versi "instructed"
  • Pentingnya RAM kembali menonjol karena LLM
    • Menyesal tidak menambahkan RAM 32GB ekstra pada MacBook Pro
  • Harapan terhadap model terkuantisasi
    • Menginginkan model 3-bit yang bisa dijalankan di MacBook Pro 64GB