Model Mistral “Mixtral” 8x7B 32k [magnet]

(twitter.com/MistralAI)

2 poin oleh GN⁺ 2023-12-09 | 1 komentar | Bagikan ke WhatsApp

1 komentar

GN⁺ 2023-12-09

Opini Hacker News

Dalam kabar LLM lain, model fine-tuning Mistral/Yi yang dilatih dengan teknik baru bernama neural alignment yang belum didokumentasikan sedang jauh mengungguli model-model lain di leaderboard Hugging Face
Model 7B “mengalahkan” sebagian besar model 70B, dan 34B yang sedang diuji juga terlihat sangat bagus
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
Secara teori, teknik ini juga bisa diterapkan ke Mistral MoE, jadi jika peningkatannya sama seperti pada Mistral 7B biasa dan Mistral MoE sendiri memang bagus, hasilnya bisa menjadi model yang cukup mengerikan
Ini mungkin menjadi titik balik saat model open-source yang bisa dijalankan di desktop benar-benar mulai mengejar GPT-4 dari jarak sangat dekat
- Saya sudah mencoba versi 7B, dan rasanya jelas berbeda dari yang pernah saya coba sebelumnya
  Ia bisa menjelaskan file Docker Compose dan juga membuat komponen aplikasi Vue sederhana
  Saat saya bertanya lebih lanjut dari contoh itu, sepanjang percakapan ia terasa anehnya konsisten dan fokus, serta bisa membedakan dengan baik apakah saya sedang berpindah ke topik baru atau merujuk ke hal sebelumnya meski konteks belum dihapus
  Terutama ketika saya bertanya “What does following mean [isi docker compose]”, cybertron-7b menjawab dengan mengutip persis ungkapan saya seperti “dalam konfigurasi YAML yang diberikan, ‘following’ berarti penetapan dependensi”; ini pertama kalinya saya melihat model yang mengutip ekspresi tepat dari percakapan seperti itu
- Karena tertarik, saya membuat ollama modelfile untuk varian terkecil dengan versi GGUF dari TheBloke[1], dan untuk model sekecil ini rasanya cukup banyak nuansa seperti GPT-4
  Terasa lebih konsisten dibanding openhermes2.5-mistral yang sebelumnya terutama saya pakai sebagai LLM lokal
  Jika ollama sudah terpasang, Anda bisa mencobanya dengan ollama run nollama/una-cybertron-7b-v2
  [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
- Benar. UNA tampaknya bisa menyelaraskan MoE pada berbagai layer, expert, bahkan hampir bagian mana pun dari jaringan saraf
  Xaberius 34B v1 “BETA” adalah rajanya, tetapi secara harfiah masih beta
  Sekarang kami akan fokus ke Mixtral, dan karena modular seperti ini, rasanya seperti hadiah Natal. Terima kasih kepada @mistral karena telah membuka labnya
- Bukankah benchmark LLM sekarang paling banter tidak bermakna, dan paling buruk hampir seperti kebohongan?
- Benar. Mistral tidak terlalu peduli untuk melemahkan model seperti mengebirinya lewat ‘pelatihan keamanan’
  Karena itu, performa per parameternya bisa jauh lebih baik daripada Anthropic/Google/OpenAI, sekaligus mungkin lebih mudah dikendalikan
Tafsiran Andrej Karpathy:
LLM open-weight baru dari @MistralAI
Berdasarkan params.json: hidden_dim / dim = 14336/4096 => ekspansi MLP 3.5X, n_heads / n_kv_heads = 32/8 => multiquery 4X, "moe" => mixture of experts 8X top 2
Kode yang tampaknya terkait:
https://github.com/mistralai/megablocks-public
Anehnya, tidak ada video peluncuran profesional yang terlalu direhearsal dan berbicara tentang “revolusi AI”
Jika bertanya-tanya mengapa aktivitas AI sedang sangat ramai sekarang, itu karena konferensi deep learning terbesar, NeurIPS, berlangsung minggu depan
https://twitter.com/karpathy/status/1733181701361451130
- Jika NeurIPS minggu depan, apakah kita bisa berharap ada pengumuman besar seperti arsitektur atau model baru dari berbagai perusahaan? Saya tidak terlalu akrab dengan budaya konferensi riset, jadi penasaran
- hidden_dim / dim = 14336/4096 => ekspansi MLP 3.5X dan n_heads / n_kv_heads = 32/8 => 4X keduanya persis sama dengan Mistral-7B yang sudah ada
- EMNLP 2023 juga sedang berlangsung sekarang, jadi pengumuman sedang menumpuk
Mistral tampaknya tidak terlalu berusaha menjelaskan, tetapi pendekatan seperti ini membuat produknya jauh lebih tepercaya daripada pengumuman Gemini Google yang mulus, korporat, dan tanpa jiwa
- Membuka bobot lebih baik daripada dokumentasi
  Saya teringat seorang karyawan Google yang membanggakan bahwa mereka merilis bobot Gemini, itu pun hanya Gemini mobile kecil, seolah-olah itu langkah yang lebih murah hati daripada perusahaan lain
Apakah pengumuman besar memang perlu? Lakukan saja dengan gaya 90-an: https://twitter.com/erhartford/status/1733159666417545641/ph...
- Ini terlihat seperti cara yang jauh lebih berani dan percaya diri dibanding merilis halaman pemasaran atau video yang jelas-jelas dimanipulasi dan tidak realistis
Tampaknya ini mixture of experts (MoE), dan params.json adalah sebagai berikut
{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
- Dalam konteks ini, apa sebenarnya arti expert?
- Saya tidak melihat kodenya di sana; runtime apa yang bisa memuat bobot ini?
Meski target perusahaannya tidak persis sama, cukup lucu jika membandingkan pengumuman model ini dengan pengumuman Gemini dari Google dua hari lalu
Ini sangat kontras dengan pendekatan Google awal pekan ini yang “hanya punya demo, tanpa model”
Tampaknya dilatih dengan Megablocks dari Stanford: https://github.com/mistralai/megablocks-public
Mungkin kontroversial, tetapi menurut saya Mistral 7B adalah yang benar-benar berada di garis depan LLM saat ini
ChatGPT 4 memang luar biasa dan saya sudah berlangganan sejak hari pertama, tetapi ia berjalan di server farm raksasa yang jauh dan hampir seperti black box
Mistral itu kecil, sangat konsisten dan berguna untuk ukuran tersebut baik pada pertanyaan umum maupun kode, tanpa sensor, dan merupakan lompatan yang sulit dipercaya bisa terjadi hanya dalam 1 tahun
Bisa dijalankan di MacBook Air pada 12 tok/s, dan saya menantikan untuk mencobanya di desktop
- Dalam cakupan yang bisa dijalankan di MacBook Air, ini memang yang terdepan, tetapi bukan yang terdepan untuk keseluruhan LLM atau keseluruhan open source
  Yi 34B dan Llama2 70B masih lebih baik
- Jika 50% informasi yang dikonsumsi di internet dibuat dalam 24 jam terakhir, model kecil bisa punya keunggulan yang cukup besar dibanding model besar
  Jika LLM atau SmallLM bisa terus dilatih ulang atau di-fine-tuning setiap minggu atau setiap hari agar mencerminkan informasi terbaru, model lama yang dilatih 1–2 tahun lalu akan sulit mengikutinya
  Saya tidak tahu soal lisensinya, tetapi OpenAI bisa saja memasukkan model kecil seperti Mistral7B ke dalam stack GPT, melatihnya ulang dari awal setiap minggu, lalu mengenakan harga yang sama seperti GPT-4
  Meski performanya lebih lemah, tampaknya pasti ada pengguna yang akan lebih memilih model yang lebih mutakhir informasinya
- Setuju. Mistral 7B benar-benar luar biasa bagus
  Model fine-tuning seperti versi Intel atau Berkeley Starling, meski hanya 7B, terasa cukup mendekati gpt3.5T
  Saya sangat menantikan Mistral 13B, tetapi belum tahu apakah MoE ini akan bisa berjalan di 3090 24GB
  Semoga bisa dijalankan dengan kuantisasi, offloading, dan teknik-teknik yang akan muncul ke depan
- 12 tok/s di MacBook Air terdengar agak rendah
  Apakah memakai akselerasi GPU Metal di llama.cpp? Saya tidak punya MacBook, tetapi dari benchmark llama.cpp sepertinya dengan akselerasi GPU bisa hampir mencapai 30 tok/s
- Benar sekali. Setidaknya terasa setara dengan llama2 13b
  Jika mistral 70b ada dan mengungguli llama2 70b sebesar peningkatan yang ditunjukkannya dibanding llama2 pada ukuran 7b, jelas levelnya akan mirip dengan gpt3.5
Sekarang ada versi Hugging Face yang berjalan secara eksperimental: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google selesai dengan demo palsu, Mistral cukup dengan satu magnet link

Model Mistral “Mixtral” 8x7B 32k [magnet]

Bacaan terkait

1 komentar

Opini Hacker News