- Devstral adalah LLM agentik untuk tugas rekayasa perangkat lunak, dikembangkan melalui kolaborasi Mistral AI dan All Hands AI
- Pada benchmark SWE-Bench Verified, model ini mencapai kinerja 46,8%, lebih dari 6% lebih tinggi dibanding model open source sebelumnya
- Menunjukkan kinerja yang lebih baik daripada model pesaing (Deepseek-V3, Qwen3, dll.) dan beberapa model closed-source (seperti GPT-4.1-mini)
- Dapat digunakan secara lokal bahkan di RTX 4090 atau Mac dengan RAM 32GB, sehingga cocok untuk lingkungan enterprise maupun copilot
- Didistribusikan gratis di bawah lisensi Apache 2.0, dan dapat langsung digunakan serta dikustomisasi di berbagai platform
Pengenalan Devstral
- Devstral adalah LLM agentik (Agentic Large Language Model) untuk tugas rekayasa perangkat lunak seperti menulis kode, memodifikasi kode, dan menyelesaikan issue
- Dikembangkan melalui kemitraan antara Mistral AI dan All Hands AI
- Devstral dilatih dengan cara benar-benar menyelesaikan issue GitHub di dunia nyata, dan berjalan berbasis scaffold agen kode seperti OpenHands atau SWE-Agent
Kinerja Devstral pada benchmark SWE-Bench Verified
- Devstral mencatat skor 46,8% di SWE-Bench Verified, melampaui model open source terbaik lebih dari 6 poin persentase
- Dengan scaffold pengujian yang sama (OpenHands), hasilnya juga mengungguli model yang lebih besar seperti Deepseek-V3-0324(671B) dan Qwen3 232B-A22B
- Dalam lingkungan pengujian kustom, Devstral juga mencatat kinerja yang lebih baik daripada sejumlah model alternatif closed-source
- Sebagai contoh, model ini menunjukkan akurasi lebih dari 20% lebih tinggi dibanding GPT-4.1-mini terbaru
Keragaman dan penerapan
- Devstral dapat berjalan lancar bahkan pada RTX 4090 atau Mac dengan RAM 32GB, sehingga menguntungkan untuk deployment lokal dan penggunaan on-device
- Pada platform seperti OpenHands, model ini dapat terhubung dengan codebase lokal untuk menyelesaikan issue dengan cepat
- Cocok juga untuk repositori kode di lingkungan enterprise yang membutuhkan perlindungan privasi
- Dapat diterapkan di beragam lingkungan pengembangan seperti copilot dan plugin IDE agen
Distribusi dan penggunaan
- Devstral menggunakan lisensi Apache 2.0, sehingga siapa pun dapat menggunakannya, mengustomisasinya, dan mendistribusikannya ulang secara gratis
- Panduan penggunaan model dan tutorial disediakan, dan model dapat diunduh dari berbagai platform seperti HuggingFace, Ollama, Kaggle, Unsloth, dan LM Studio
- Juga tersedia di API resmi Mistral dengan nama
devstral-small-2505, dan menggunakan kebijakan harga yang sama dengan Mistral Small 3.1
- Jika di lingkungan enterprise dibutuhkan kustomisasi lanjutan seperti fine-tuning yang dioptimalkan untuk codebase privat, pengguna dapat menghubungi pihak terkait
Rencana ke depan
- Devstral saat ini masih berada pada tahap research preview
- Ke depannya, model coding agentik berskala lebih besar juga direncanakan untuk dirilis
- Jika ingin berdiskusi mengenai penggunaan Devstral atau berbagai model dan solusi Mistral, konsultasi dapat dilakukan melalui kontak resmi
1 komentar
Opini Hacker News
Akhir-akhir ini saya selalu cek ukuran file dulu lewat Ollama, dan ternyata model ini ada di kisaran 14GB; lihat https://ollama.com/library/devstral/tags. Di Mac M2, biasanya perlu memori tambahan sekitar 10% di atas ukuran file model, jadi ini membantu saya mengecek sisa RAM untuk melihat aplikasi apa saja yang masih bisa dijalankan bersamaan. Model di bawah 20GB biasanya tidak terlalu berdampak pada pemakaian program lain. Cukup antusias dengan model ini
Butuh rekomendasi software pengembangan agentic yang bekerja baik dengan model lokal. Sudah coba Cursor tapi ternyata kurang memuaskan, malah rasanya lebih baik bolak-balik antara editor dan ChatGPT. Juga sempat mencoba Localforge dan aider, tapi agak lambat saat dipakai dengan model lokal
Saya juga setuju. Saya sudah menjalankan model ini secara lokal dan kesannya bagus. Bahkan bisa menangani kode Ruby atau rspec yang tricky dengan baik. Saya berencana mengujinya juga dengan aider dalam situasi konteks besar
Skor SWE-Bench-nya sangat tinggi untuk ukuran model open source sebesar ini. 46,8% lebih tinggi daripada o3-mini (dengan Agentless-lite) atau Claude 3.6 (bersama AutoCodeRover), dan hanya sedikit di bawah Claude 3.6 dengan scaffold eksklusif Anthropic. Kalau mempertimbangkan bahwa model ini nyaris bisa dijalankan gratis, hasilnya cukup mengejutkan
Entah ini benar-benar “menakjubkan”, atau justru bikin curiga bahwa benchmark-nya tidak menjalankan fungsinya dengan baik
Perlu dipastikan apakah yang dimaksud sebenarnya Claude 3.7
Informasi tambahan untuk pengguna yang tidak punya kartu grafis VRAM 24GB. Saya memakai model ini lewat Ollama untuk tugas sederhana di lingkungan RAM 8GB. Untuk context window besar dan pekerjaan yang sensitif terhadap waktu, saya sarankan memakai API berbayar.
Saya tidak terlalu percaya benchmark yang ditampilkan. Belum mencobanya langsung, tapi dalam pengalaman saya, benchmark model keluarga Mistral hasilnya cenderung mirip Llama dan berada di bawah. Saya tidak berharap performa nyatanya akan sebaik ini
Saya baru-baru ini memakai model All Hands, dan sepertinya mereka juga berbasis Mistral. Kesan saya, memang tidak sebanding dengan Claude 3.7 Sonnet, tapi cukup stabil. Untuk use case "AI pair-coding assistant", model ini cukup layak dipakai, dan pekerjaan arsitektur besar juga masih bisa kalau tahapannya dipecah lebih detail
Saya juga tidak terlalu percaya. Hal seperti ini memang harus diuji sendiri. Misalnya, Qwen3 justru terasa mundur menurut standar saya, dan GLM4 sekarang jadi patokan saya. Model cogito 70b juga sangat bagus tapi jarang dibahas. Menurut saya perbedaannya besar tergantung proyek, bahasa, dan use case. Tapi model ini tetap akan saya coba
Lisensi Apache 2.0 memberi kesan bagus. Syarat penggunaannya jelas, bukan lisensi dengan kondisi "open weights" yang rumit. Itu nilai plus
Akan bagus kalau EU menanggung biaya pembuatan agen/model ini. Kalau hasilnya benar-benar sebaik yang diharapkan, Mistral bisa terus fokus pada pekerjaannya, dan dari sudut pandang kita di Eropa itu berarti penggunaan anggaran yang bijak
Kalau pajak saya dipakai untuk mengembangkan model berlisensi apache/mit, saya setuju. Setidaknya ada tujuan positif seperti menjaga model alternatif tetap tersedia dan menahan monopoli perusahaan besar. Pada akhirnya ini penting untuk mencegah dominasi segelintir perusahaan raksasa
Faktanya, EU memang sudah mengeluarkan biaya untuk membangun superkomputer yang bisa dipakai startup AI, dan Mistral juga ikut sebagai mitra dalam program ini
Saya menemukan model ini secara tidak sengaja saat menguji dukungan tool di LLamaIndex. Saya sedang bereksperimen menghubungkan berbagai model ke solusi agentic coding buatan sendiri, dan tepat ketika hendak menerapkan pendekatan ReAct, model ini muncul dan cukup mengejutkan.
Tapi di sistem agen saya, model ini hanya mengembalikan "no tools". Saya bahkan sudah mencoba instruksi eksplisit di berbagai prompt agen seperti "kerjakan bar dengan tool foo", tapi tetap tidak berhasil. ToolSpec saya berupa objek Pydantic standar dengan anotasi dan semacamnya, dan model-model lain biasanya bisa menemukan penggunaan tool sendiri dengan baik
Tool schema bisa dipaksakan dengan cara membatasi output. Dengan sedikit bantuan, ini bisa diterapkan ke model mana pun
Senang melihat Mistral kembali merilis model yang benar-benar open source. Saya terus merasa Eropa butuh perusahaan AI yang kompetitif.
Saya mencari rekomendasi model lokal terbaru atau info terkait yang bisa berjalan di perangkat spesifikasi rendah, misalnya MacBook Air. Saya ingin tahu model mana yang 'benar-benar layak dipakai' di tiap spesifikasi perangkat tanpa harus mengujinya satu per satu. Saya juga perlu menilai apakah perlu terus menyimpan 2–3 model untuk tiap tugas di Ollama. Apple Intelligence masih belum cukup
Untuk model serbaguna yang optimal dijalankan secara lokal, saya sarankan Gemma 3 atau Mistral Small terbaru. Di Windows, VRAM menjadi bottleneck kecepatan, tetapi di Mac seri M, memorinya on-chip sehingga bisa dipakai cepat. Kapasitas model yang bisa dijalankan ditentukan dari RAM aktual setelah dikurangi pemakaian MacOS dan ruang untuk aplikasi lain.
Mencoba langsung adalah cara paling efektif untuk memastikannya. Selama kapasitas untuk modelnya tersedia,
llama.cpp(https://github.com/ggml-org/llama.cpp) mudah dipasang dan di-build, dan dukungannya untuk MacBook Air seri M juga bagus. Secara pribadi saya paling sering memakai LMStudio(https://lmstudio.ai/). Antarmukanya mudah seperti ChatGPT atau Claude, dan Anda bisa langsung mencari/mengunduh model dari dalam program. Untuk pemula pun LMStudio saja sudah cukup, dan saya sering memakainya di MacBook Air M2Saya penasaran bagaimana performa model ini dibanding hosted LLM seperti Claude 3.7 dalam penggunaan nyata