Mistral AI merilis model bahasa baru Codestral Mamba

xguru · 2024-07-17T09:43:01+09:00

Model bahasa Mamba2 yang dioptimalkan untuk pembuatan kode Berbeda dari model transformer, model Mamba menawarkan inferensi waktu linear dan kemampuan untuk memodelkan urutan dengan panjang yang secara teoretis tak terbatas Terlepas dari panjang input, pengguna dapat berinteraksi secara luas dengan model berkat respons yang cepat Efisiensi ini terutama berdampak pada produktivitas pemrograman, sehingga dapat menghadirkan performa setara dengan model berbasis transformer SOTA Hasil benchmark pada model 7B menunjukkan Codestral Mamba (7B) memiliki kemampuan yang lebih baik atau hampir setara dibanding CodeGemma-1.1 7B, CodeLlama 7B, dan DeepSeek v1.5 7B Diharapkan menjadi asisten kode lokal yang sangat baik Dapat dideploy melalui SDK mistral-inference dan TensorRT-LLM, serta direncanakan didukung di llama.cpp untuk inferensi lokal Bobot mentah dapat diunduh dari HuggingFace

(mistral.ai)

11 poin oleh xguru 2024-07-17 | 2 komentar | Bagikan ke WhatsApp

Model bahasa Mamba2 yang dioptimalkan untuk pembuatan kode
Berbeda dari model transformer, model Mamba menawarkan inferensi waktu linear dan kemampuan untuk memodelkan urutan dengan panjang yang secara teoretis tak terbatas
- Terlepas dari panjang input, pengguna dapat berinteraksi secara luas dengan model berkat respons yang cepat
- Efisiensi ini terutama berdampak pada produktivitas pemrograman, sehingga dapat menghadirkan performa setara dengan model berbasis transformer SOTA
Hasil benchmark pada model 7B menunjukkan Codestral Mamba (7B) memiliki kemampuan yang lebih baik atau hampir setara dibanding CodeGemma-1.1 7B, CodeLlama 7B, dan DeepSeek v1.5 7B
Diharapkan menjadi asisten kode lokal yang sangat baik
Dapat dideploy melalui SDK mistral-inference dan TensorRT-LLM, serta direncanakan didukung di llama.cpp untuk inferensi lokal
Bobot mentah dapat diunduh dari HuggingFace

2 komentar

xguru 2024-07-17

Komentar Hacker News

Diperlukan langkah-langkah untuk menjalankannya di VS Code
- Akan membantu adopsi jika postingan menyertakan tautan panduan atau tautan instalasi sekali klik untuk VS Code Extension
- Ini adalah model yang kemungkinan akan menarik minat banyak pengguna, tetapi masalahnya adalah tidak ada ajakan bertindak yang bisa dimonetisasi
Meminta rekomendasi model yang memiliki fitur FIM
- Sedang menggunakan codellama-13b dengan vim extension, tetapi performanya tidak terlalu bagus
- Gemma-27b menghasilkan kode yang lebih baik, tetapi tidak memiliki fitur FIM
- codellama-34b tidak menjalankan inferensi dengan benar
DeepSeek perlu ditonjolkan pada kolom MBPP
- DeepSeek memiliki skor yang lebih baik daripada Codestral
Mengumumkan bahwa model tersedia di HuggingFace, tetapi tidak memberikan tautannya
- Tautan: HuggingFace Mamba-Codestral-7B-v0.1
Senang melihat model berprofil tinggi yang menggunakan Mamba2
Mengklaim bahwa Mamba lebih cepat, tetapi tidak ada angka latensi
- Ingin tahu apakah ada yang sudah mencobanya, dan apakah memang cepat dalam praktiknya
Menyarankan pengantar produk tentang kelebihan dan kekurangan Mamba dan Transformers
Ingin tahu apakah ada penjelasan yang bagus tentang arsitektur Mamba
Meminta rekomendasi video atau tulisan yang cocok untuk orang yang memahami konsep umum LLM, tetapi sejauh ini hanya menggunakan alat yang tersedia secara umum seperti ChatGPT, Claude, dan sebagainya
- Ingin memeriksa apakah memiliki perangkat keras yang bisa menjalankannya secara lokal, tetapi tidak tahu harus mulai dari mana
Melakukan pengujian cepat di playground model.box
- Panjang completion terlihat jauh lebih pendek dibanding model lain (misalnya gpt-4o)
- Kecepatan respons sesuai dengan harapan

xguru 2024-07-17

Codestral - model AI pembuat kode dari Mistral

Mistral AI merilis model bahasa baru Codestral Mamba

Bacaan terkait

2 komentar

Komentar Hacker News