Dalam kabar LLM lain, model fine-tuning Mistral/Yi yang dilatih dengan teknik baru bernama neural alignment yang belum didokumentasikan sedang jauh mengungguli model-model lain di leaderboard Hugging Face
Model 7B “mengalahkan” sebagian besar model 70B, dan 34B yang sedang diuji juga terlihat sangat bagus https://huggingface.co/fblgit/una-xaberius-34b-v1beta https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
Secara teori, teknik ini juga bisa diterapkan ke Mistral MoE, jadi jika peningkatannya sama seperti pada Mistral 7B biasa dan Mistral MoE sendiri memang bagus, hasilnya bisa menjadi model yang cukup mengerikan
Ini mungkin menjadi titik balik saat model open-source yang bisa dijalankan di desktop benar-benar mulai mengejar GPT-4 dari jarak sangat dekat
Saya sudah mencoba versi 7B, dan rasanya jelas berbeda dari yang pernah saya coba sebelumnya
Ia bisa menjelaskan file Docker Compose dan juga membuat komponen aplikasi Vue sederhana
Saat saya bertanya lebih lanjut dari contoh itu, sepanjang percakapan ia terasa anehnya konsisten dan fokus, serta bisa membedakan dengan baik apakah saya sedang berpindah ke topik baru atau merujuk ke hal sebelumnya meski konteks belum dihapus
Terutama ketika saya bertanya “What does following mean [isi docker compose]”, cybertron-7b menjawab dengan mengutip persis ungkapan saya seperti “dalam konfigurasi YAML yang diberikan, ‘following’ berarti penetapan dependensi”; ini pertama kalinya saya melihat model yang mengutip ekspresi tepat dari percakapan seperti itu
Karena tertarik, saya membuat ollama modelfile untuk varian terkecil dengan versi GGUF dari TheBloke[1], dan untuk model sekecil ini rasanya cukup banyak nuansa seperti GPT-4
Terasa lebih konsisten dibanding openhermes2.5-mistral yang sebelumnya terutama saya pakai sebagai LLM lokal
Jika ollama sudah terpasang, Anda bisa mencobanya dengan ollama run nollama/una-cybertron-7b-v2
[1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
Benar. UNA tampaknya bisa menyelaraskan MoE pada berbagai layer, expert, bahkan hampir bagian mana pun dari jaringan saraf
Xaberius 34B v1 “BETA” adalah rajanya, tetapi secara harfiah masih beta
Sekarang kami akan fokus ke Mixtral, dan karena modular seperti ini, rasanya seperti hadiah Natal. Terima kasih kepada @mistral karena telah membuka labnya
Bukankah benchmark LLM sekarang paling banter tidak bermakna, dan paling buruk hampir seperti kebohongan?
Benar. Mistral tidak terlalu peduli untuk melemahkan model seperti mengebirinya lewat ‘pelatihan keamanan’
Karena itu, performa per parameternya bisa jauh lebih baik daripada Anthropic/Google/OpenAI, sekaligus mungkin lebih mudah dikendalikan
Tafsiran Andrej Karpathy: LLM open-weight baru dari @MistralAI
Berdasarkan params.json: hidden_dim / dim = 14336/4096 => ekspansi MLP 3.5X, n_heads / n_kv_heads = 32/8 => multiquery 4X, "moe" => mixture of experts 8X top 2
Kode yang tampaknya terkait: https://github.com/mistralai/megablocks-public
Anehnya, tidak ada video peluncuran profesional yang terlalu direhearsal dan berbicara tentang “revolusi AI”
Jika bertanya-tanya mengapa aktivitas AI sedang sangat ramai sekarang, itu karena konferensi deep learning terbesar, NeurIPS, berlangsung minggu depan https://twitter.com/karpathy/status/1733181701361451130
Jika NeurIPS minggu depan, apakah kita bisa berharap ada pengumuman besar seperti arsitektur atau model baru dari berbagai perusahaan? Saya tidak terlalu akrab dengan budaya konferensi riset, jadi penasaran
hidden_dim / dim = 14336/4096 => ekspansi MLP 3.5X dan n_heads / n_kv_heads = 32/8 => 4X keduanya persis sama dengan Mistral-7B yang sudah ada
EMNLP 2023 juga sedang berlangsung sekarang, jadi pengumuman sedang menumpuk
Mistral tampaknya tidak terlalu berusaha menjelaskan, tetapi pendekatan seperti ini membuat produknya jauh lebih tepercaya daripada pengumuman Gemini Google yang mulus, korporat, dan tanpa jiwa
Membuka bobot lebih baik daripada dokumentasi
Saya teringat seorang karyawan Google yang membanggakan bahwa mereka merilis bobot Gemini, itu pun hanya Gemini mobile kecil, seolah-olah itu langkah yang lebih murah hati daripada perusahaan lain
Ini terlihat seperti cara yang jauh lebih berani dan percaya diri dibanding merilis halaman pemasaran atau video yang jelas-jelas dimanipulasi dan tidak realistis
Tampaknya ini mixture of experts (MoE), dan params.json adalah sebagai berikut { "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
Dalam konteks ini, apa sebenarnya arti expert?
Saya tidak melihat kodenya di sana; runtime apa yang bisa memuat bobot ini?
Meski target perusahaannya tidak persis sama, cukup lucu jika membandingkan pengumuman model ini dengan pengumuman Gemini dari Google dua hari lalu
Ini sangat kontras dengan pendekatan Google awal pekan ini yang “hanya punya demo, tanpa model”
Tampaknya dilatih dengan Megablocks dari Stanford: https://github.com/mistralai/megablocks-public
Mungkin kontroversial, tetapi menurut saya Mistral 7B adalah yang benar-benar berada di garis depan LLM saat ini
ChatGPT 4 memang luar biasa dan saya sudah berlangganan sejak hari pertama, tetapi ia berjalan di server farm raksasa yang jauh dan hampir seperti black box
Mistral itu kecil, sangat konsisten dan berguna untuk ukuran tersebut baik pada pertanyaan umum maupun kode, tanpa sensor, dan merupakan lompatan yang sulit dipercaya bisa terjadi hanya dalam 1 tahun
Bisa dijalankan di MacBook Air pada 12 tok/s, dan saya menantikan untuk mencobanya di desktop
Dalam cakupan yang bisa dijalankan di MacBook Air, ini memang yang terdepan, tetapi bukan yang terdepan untuk keseluruhan LLM atau keseluruhan open source Yi 34B dan Llama2 70B masih lebih baik
Jika 50% informasi yang dikonsumsi di internet dibuat dalam 24 jam terakhir, model kecil bisa punya keunggulan yang cukup besar dibanding model besar
Jika LLM atau SmallLM bisa terus dilatih ulang atau di-fine-tuning setiap minggu atau setiap hari agar mencerminkan informasi terbaru, model lama yang dilatih 1–2 tahun lalu akan sulit mengikutinya
Saya tidak tahu soal lisensinya, tetapi OpenAI bisa saja memasukkan model kecil seperti Mistral7B ke dalam stack GPT, melatihnya ulang dari awal setiap minggu, lalu mengenakan harga yang sama seperti GPT-4
Meski performanya lebih lemah, tampaknya pasti ada pengguna yang akan lebih memilih model yang lebih mutakhir informasinya
Setuju. Mistral 7B benar-benar luar biasa bagus
Model fine-tuning seperti versi Intel atau Berkeley Starling, meski hanya 7B, terasa cukup mendekati gpt3.5T
Saya sangat menantikan Mistral 13B, tetapi belum tahu apakah MoE ini akan bisa berjalan di 3090 24GB
Semoga bisa dijalankan dengan kuantisasi, offloading, dan teknik-teknik yang akan muncul ke depan
12 tok/s di MacBook Air terdengar agak rendah
Apakah memakai akselerasi GPU Metal di llama.cpp? Saya tidak punya MacBook, tetapi dari benchmark llama.cpp sepertinya dengan akselerasi GPU bisa hampir mencapai 30 tok/s
Benar sekali. Setidaknya terasa setara dengan llama2 13b
Jika mistral 70b ada dan mengungguli llama2 70b sebesar peningkatan yang ditunjukkannya dibanding llama2 pada ukuran 7b, jelas levelnya akan mirip dengan gpt3.5
1 komentar
Opini Hacker News
Dalam kabar LLM lain, model fine-tuning Mistral/Yi yang dilatih dengan teknik baru bernama neural alignment yang belum didokumentasikan sedang jauh mengungguli model-model lain di leaderboard Hugging Face
Model 7B “mengalahkan” sebagian besar model 70B, dan 34B yang sedang diuji juga terlihat sangat bagus
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
Secara teori, teknik ini juga bisa diterapkan ke Mistral MoE, jadi jika peningkatannya sama seperti pada Mistral 7B biasa dan Mistral MoE sendiri memang bagus, hasilnya bisa menjadi model yang cukup mengerikan
Ini mungkin menjadi titik balik saat model open-source yang bisa dijalankan di desktop benar-benar mulai mengejar GPT-4 dari jarak sangat dekat
Ia bisa menjelaskan file Docker Compose dan juga membuat komponen aplikasi Vue sederhana
Saat saya bertanya lebih lanjut dari contoh itu, sepanjang percakapan ia terasa anehnya konsisten dan fokus, serta bisa membedakan dengan baik apakah saya sedang berpindah ke topik baru atau merujuk ke hal sebelumnya meski konteks belum dihapus
Terutama ketika saya bertanya “What does following mean [isi docker compose]”, cybertron-7b menjawab dengan mengutip persis ungkapan saya seperti “dalam konfigurasi YAML yang diberikan, ‘following’ berarti penetapan dependensi”; ini pertama kalinya saya melihat model yang mengutip ekspresi tepat dari percakapan seperti itu
Terasa lebih konsisten dibanding openhermes2.5-mistral yang sebelumnya terutama saya pakai sebagai LLM lokal
Jika ollama sudah terpasang, Anda bisa mencobanya dengan
ollama run nollama/una-cybertron-7b-v2[1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
Xaberius 34B v1 “BETA” adalah rajanya, tetapi secara harfiah masih beta
Sekarang kami akan fokus ke Mixtral, dan karena modular seperti ini, rasanya seperti hadiah Natal. Terima kasih kepada @mistral karena telah membuka labnya
Karena itu, performa per parameternya bisa jauh lebih baik daripada Anthropic/Google/OpenAI, sekaligus mungkin lebih mudah dikendalikan
Tafsiran Andrej Karpathy:
LLM open-weight baru dari @MistralAI
Berdasarkan params.json:
hidden_dim / dim = 14336/4096 => ekspansi MLP 3.5X,n_heads / n_kv_heads = 32/8 => multiquery 4X,"moe" => mixture of experts 8X top 2Kode yang tampaknya terkait:
https://github.com/mistralai/megablocks-public
Anehnya, tidak ada video peluncuran profesional yang terlalu direhearsal dan berbicara tentang “revolusi AI”
Jika bertanya-tanya mengapa aktivitas AI sedang sangat ramai sekarang, itu karena konferensi deep learning terbesar, NeurIPS, berlangsung minggu depan
https://twitter.com/karpathy/status/1733181701361451130
hidden_dim / dim = 14336/4096 => ekspansi MLP 3.5Xdann_heads / n_kv_heads = 32/8 => 4Xkeduanya persis sama dengan Mistral-7B yang sudah adaMistral tampaknya tidak terlalu berusaha menjelaskan, tetapi pendekatan seperti ini membuat produknya jauh lebih tepercaya daripada pengumuman Gemini Google yang mulus, korporat, dan tanpa jiwa
Saya teringat seorang karyawan Google yang membanggakan bahwa mereka merilis bobot Gemini, itu pun hanya Gemini mobile kecil, seolah-olah itu langkah yang lebih murah hati daripada perusahaan lain
Apakah pengumuman besar memang perlu? Lakukan saja dengan gaya 90-an: https://twitter.com/erhartford/status/1733159666417545641/ph...
Tampaknya ini mixture of experts (MoE), dan
params.jsonadalah sebagai berikut{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }Meski target perusahaannya tidak persis sama, cukup lucu jika membandingkan pengumuman model ini dengan pengumuman Gemini dari Google dua hari lalu
Ini sangat kontras dengan pendekatan Google awal pekan ini yang “hanya punya demo, tanpa model”
Tampaknya dilatih dengan Megablocks dari Stanford: https://github.com/mistralai/megablocks-public
Mungkin kontroversial, tetapi menurut saya Mistral 7B adalah yang benar-benar berada di garis depan LLM saat ini
ChatGPT 4 memang luar biasa dan saya sudah berlangganan sejak hari pertama, tetapi ia berjalan di server farm raksasa yang jauh dan hampir seperti black box
Mistral itu kecil, sangat konsisten dan berguna untuk ukuran tersebut baik pada pertanyaan umum maupun kode, tanpa sensor, dan merupakan lompatan yang sulit dipercaya bisa terjadi hanya dalam 1 tahun
Bisa dijalankan di MacBook Air pada 12 tok/s, dan saya menantikan untuk mencobanya di desktop
Yi 34B dan Llama2 70B masih lebih baik
Jika LLM atau SmallLM bisa terus dilatih ulang atau di-fine-tuning setiap minggu atau setiap hari agar mencerminkan informasi terbaru, model lama yang dilatih 1–2 tahun lalu akan sulit mengikutinya
Saya tidak tahu soal lisensinya, tetapi OpenAI bisa saja memasukkan model kecil seperti Mistral7B ke dalam stack GPT, melatihnya ulang dari awal setiap minggu, lalu mengenakan harga yang sama seperti GPT-4
Meski performanya lebih lemah, tampaknya pasti ada pengguna yang akan lebih memilih model yang lebih mutakhir informasinya
Model fine-tuning seperti versi Intel atau Berkeley Starling, meski hanya 7B, terasa cukup mendekati gpt3.5T
Saya sangat menantikan Mistral 13B, tetapi belum tahu apakah MoE ini akan bisa berjalan di 3090 24GB
Semoga bisa dijalankan dengan kuantisasi, offloading, dan teknik-teknik yang akan muncul ke depan
Apakah memakai akselerasi GPU Metal di llama.cpp? Saya tidak punya MacBook, tetapi dari benchmark llama.cpp sepertinya dengan akselerasi GPU bisa hampir mencapai 30 tok/s
Jika mistral 70b ada dan mengungguli llama2 70b sebesar peningkatan yang ditunjukkannya dibanding llama2 pada ukuran 7b, jelas levelnya akan mirip dengan gpt3.5
Sekarang ada versi Hugging Face yang berjalan secara eksperimental: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google selesai dengan demo palsu, Mistral cukup dengan satu magnet link