4 poin oleh GN⁺ 2025-05-22 | 1 komentar | Bagikan ke WhatsApp
  • Devstral adalah LLM agentik untuk tugas rekayasa perangkat lunak, dikembangkan melalui kolaborasi Mistral AI dan All Hands AI
  • Pada benchmark SWE-Bench Verified, model ini mencapai kinerja 46,8%, lebih dari 6% lebih tinggi dibanding model open source sebelumnya
  • Menunjukkan kinerja yang lebih baik daripada model pesaing (Deepseek-V3, Qwen3, dll.) dan beberapa model closed-source (seperti GPT-4.1-mini)
  • Dapat digunakan secara lokal bahkan di RTX 4090 atau Mac dengan RAM 32GB, sehingga cocok untuk lingkungan enterprise maupun copilot
  • Didistribusikan gratis di bawah lisensi Apache 2.0, dan dapat langsung digunakan serta dikustomisasi di berbagai platform

Pengenalan Devstral

  • Devstral adalah LLM agentik (Agentic Large Language Model) untuk tugas rekayasa perangkat lunak seperti menulis kode, memodifikasi kode, dan menyelesaikan issue
  • Dikembangkan melalui kemitraan antara Mistral AI dan All Hands AI
  • Devstral dilatih dengan cara benar-benar menyelesaikan issue GitHub di dunia nyata, dan berjalan berbasis scaffold agen kode seperti OpenHands atau SWE-Agent

Kinerja Devstral pada benchmark SWE-Bench Verified

  • Devstral mencatat skor 46,8% di SWE-Bench Verified, melampaui model open source terbaik lebih dari 6 poin persentase
  • Dengan scaffold pengujian yang sama (OpenHands), hasilnya juga mengungguli model yang lebih besar seperti Deepseek-V3-0324(671B) dan Qwen3 232B-A22B
  • Dalam lingkungan pengujian kustom, Devstral juga mencatat kinerja yang lebih baik daripada sejumlah model alternatif closed-source
    • Sebagai contoh, model ini menunjukkan akurasi lebih dari 20% lebih tinggi dibanding GPT-4.1-mini terbaru

Keragaman dan penerapan

  • Devstral dapat berjalan lancar bahkan pada RTX 4090 atau Mac dengan RAM 32GB, sehingga menguntungkan untuk deployment lokal dan penggunaan on-device
  • Pada platform seperti OpenHands, model ini dapat terhubung dengan codebase lokal untuk menyelesaikan issue dengan cepat
  • Cocok juga untuk repositori kode di lingkungan enterprise yang membutuhkan perlindungan privasi
  • Dapat diterapkan di beragam lingkungan pengembangan seperti copilot dan plugin IDE agen

Distribusi dan penggunaan

  • Devstral menggunakan lisensi Apache 2.0, sehingga siapa pun dapat menggunakannya, mengustomisasinya, dan mendistribusikannya ulang secara gratis
  • Panduan penggunaan model dan tutorial disediakan, dan model dapat diunduh dari berbagai platform seperti HuggingFace, Ollama, Kaggle, Unsloth, dan LM Studio
  • Juga tersedia di API resmi Mistral dengan nama devstral-small-2505, dan menggunakan kebijakan harga yang sama dengan Mistral Small 3.1
  • Jika di lingkungan enterprise dibutuhkan kustomisasi lanjutan seperti fine-tuning yang dioptimalkan untuk codebase privat, pengguna dapat menghubungi pihak terkait

Rencana ke depan

  • Devstral saat ini masih berada pada tahap research preview
  • Ke depannya, model coding agentik berskala lebih besar juga direncanakan untuk dirilis
  • Jika ingin berdiskusi mengenai penggunaan Devstral atau berbagai model dan solusi Mistral, konsultasi dapat dilakukan melalui kontak resmi

1 komentar

 
GN⁺ 2025-05-22
Opini Hacker News
  • Akhir-akhir ini saya selalu cek ukuran file dulu lewat Ollama, dan ternyata model ini ada di kisaran 14GB; lihat https://ollama.com/library/devstral/tags. Di Mac M2, biasanya perlu memori tambahan sekitar 10% di atas ukuran file model, jadi ini membantu saya mengecek sisa RAM untuk melihat aplikasi apa saja yang masih bisa dijalankan bersamaan. Model di bawah 20GB biasanya tidak terlalu berdampak pada pemakaian program lain. Cukup antusias dengan model ini

    • Butuh rekomendasi software pengembangan agentic yang bekerja baik dengan model lokal. Sudah coba Cursor tapi ternyata kurang memuaskan, malah rasanya lebih baik bolak-balik antara editor dan ChatGPT. Juga sempat mencoba Localforge dan aider, tapi agak lambat saat dipakai dengan model lokal

    • Saya juga setuju. Saya sudah menjalankan model ini secara lokal dan kesannya bagus. Bahkan bisa menangani kode Ruby atau rspec yang tricky dengan baik. Saya berencana mengujinya juga dengan aider dalam situasi konteks besar

  • Skor SWE-Bench-nya sangat tinggi untuk ukuran model open source sebesar ini. 46,8% lebih tinggi daripada o3-mini (dengan Agentless-lite) atau Claude 3.6 (bersama AutoCodeRover), dan hanya sedikit di bawah Claude 3.6 dengan scaffold eksklusif Anthropic. Kalau mempertimbangkan bahwa model ini nyaris bisa dijalankan gratis, hasilnya cukup mengejutkan

    • Entah ini benar-benar “menakjubkan”, atau justru bikin curiga bahwa benchmark-nya tidak menjalankan fungsinya dengan baik

    • Perlu dipastikan apakah yang dimaksud sebenarnya Claude 3.7

  • Informasi tambahan untuk pengguna yang tidak punya kartu grafis VRAM 24GB. Saya memakai model ini lewat Ollama untuk tugas sederhana di lingkungan RAM 8GB. Untuk context window besar dan pekerjaan yang sensitif terhadap waktu, saya sarankan memakai API berbayar.

    • Berbagi angka detail seperti total waktu, loading, dan laju evaluasi token:
      • Contoh 1: 35 detik, memproses 6,27 token per detik
      • Contoh 2: 4 menit 44 detik, memproses 5,79 token per detik
    • Rasanya sekitar 20% lebih lambat dibanding panggilan API. Mungkin wajar karena saya tidak punya GPU yang direkomendasikan.
    • Performa benchmark-nya terlihat sangat pas untuk ukurannya, dan saya rasa kemungkinan besar karena selama pengembangan mereka berulang kali menguji optimasi terhadap benchmark. Menurut saya, sebagian besar LLM yang dipasarkan di bidang IT juga memakai strategi yang sama. Pada akhirnya, bisa “membuktikan layak pakai tanpa menghabiskan waktu untuk menguji sendiri” bukan kompromi yang buruk
  • Saya tidak terlalu percaya benchmark yang ditampilkan. Belum mencobanya langsung, tapi dalam pengalaman saya, benchmark model keluarga Mistral hasilnya cenderung mirip Llama dan berada di bawah. Saya tidak berharap performa nyatanya akan sebaik ini

    • Saya baru-baru ini memakai model All Hands, dan sepertinya mereka juga berbasis Mistral. Kesan saya, memang tidak sebanding dengan Claude 3.7 Sonnet, tapi cukup stabil. Untuk use case "AI pair-coding assistant", model ini cukup layak dipakai, dan pekerjaan arsitektur besar juga masih bisa kalau tahapannya dipecah lebih detail

    • Saya juga tidak terlalu percaya. Hal seperti ini memang harus diuji sendiri. Misalnya, Qwen3 justru terasa mundur menurut standar saya, dan GLM4 sekarang jadi patokan saya. Model cogito 70b juga sangat bagus tapi jarang dibahas. Menurut saya perbedaannya besar tergantung proyek, bahasa, dan use case. Tapi model ini tetap akan saya coba

  • Lisensi Apache 2.0 memberi kesan bagus. Syarat penggunaannya jelas, bukan lisensi dengan kondisi "open weights" yang rumit. Itu nilai plus

    • Menurut saya ini adalah keunggulan strategis Mistral. Untuk pekerjaan yang bisa diterima secara moral, saya sarankan Gemma 3. Untuk penggunaan di luar itu, jadi ada opsi memilih LLM berlisensi Apache
  • Akan bagus kalau EU menanggung biaya pembuatan agen/model ini. Kalau hasilnya benar-benar sebaik yang diharapkan, Mistral bisa terus fokus pada pekerjaannya, dan dari sudut pandang kita di Eropa itu berarti penggunaan anggaran yang bijak

    • Kalau pajak saya dipakai untuk mengembangkan model berlisensi apache/mit, saya setuju. Setidaknya ada tujuan positif seperti menjaga model alternatif tetap tersedia dan menahan monopoli perusahaan besar. Pada akhirnya ini penting untuk mencegah dominasi segelintir perusahaan raksasa

    • Faktanya, EU memang sudah mengeluarkan biaya untuk membangun superkomputer yang bisa dipakai startup AI, dan Mistral juga ikut sebagai mitra dalam program ini

  • Saya menemukan model ini secara tidak sengaja saat menguji dukungan tool di LLamaIndex. Saya sedang bereksperimen menghubungkan berbagai model ke solusi agentic coding buatan sendiri, dan tepat ketika hendak menerapkan pendekatan ReAct, model ini muncul dan cukup mengejutkan.

    • Tapi di sistem agen saya, model ini hanya mengembalikan "no tools". Saya bahkan sudah mencoba instruksi eksplisit di berbagai prompt agen seperti "kerjakan bar dengan tool foo", tapi tetap tidak berhasil. ToolSpec saya berupa objek Pydantic standar dengan anotasi dan semacamnya, dan model-model lain biasanya bisa menemukan penggunaan tool sendiri dengan baik

    • Tool schema bisa dipaksakan dengan cara membatasi output. Dengan sedikit bantuan, ini bisa diterapkan ke model mana pun

  • Senang melihat Mistral kembali merilis model yang benar-benar open source. Saya terus merasa Eropa butuh perusahaan AI yang kompetitif.

    • Model-model baru Mistral belakangan ini mengesankan. Saya memakai Le Chat Pro berbayar. Selain itu, Mistral Small juga benar-benar berguna. Saya juga sedang mengembangkan startup dengan integrasi Mistral
  • Saya mencari rekomendasi model lokal terbaru atau info terkait yang bisa berjalan di perangkat spesifikasi rendah, misalnya MacBook Air. Saya ingin tahu model mana yang 'benar-benar layak dipakai' di tiap spesifikasi perangkat tanpa harus mengujinya satu per satu. Saya juga perlu menilai apakah perlu terus menyimpan 2–3 model untuk tiap tugas di Ollama. Apple Intelligence masih belum cukup

    • Untuk model serbaguna yang optimal dijalankan secara lokal, saya sarankan Gemma 3 atau Mistral Small terbaru. Di Windows, VRAM menjadi bottleneck kecepatan, tetapi di Mac seri M, memorinya on-chip sehingga bisa dipakai cepat. Kapasitas model yang bisa dijalankan ditentukan dari RAM aktual setelah dikurangi pemakaian MacOS dan ruang untuk aplikasi lain.

      • Untuk perkiraan memori per model, lihat ukuran model terkuantisasi (presisi rendah) yang disediakan di HuggingFace dan sejenisnya. Q4_K_M cukup masuk akal sebagai patokan default.
      • Untuk Devstral, ukurannya 14,3GB, dan butuh tambahan 1–8GB untuk penyimpanan konteks.
      • Contoh:
        • MacBook Air 32GB → Devstral(14,3GB)+4GB, sekitar 14GB untuk sistem/aplikasi lain
        • MacBook Air 16GB → Gemma 3 12B(7,3GB)+2GB, sisa sekitar 7GB
        • MacBook 8GB → Gemma 3 4B(2,5GB)+1GB, praktis tidak direkomendasikan untuk penggunaan nyata
    • Mencoba langsung adalah cara paling efektif untuk memastikannya. Selama kapasitas untuk modelnya tersedia, llama.cpp(https://github.com/ggml-org/llama.cpp) mudah dipasang dan di-build, dan dukungannya untuk MacBook Air seri M juga bagus. Secara pribadi saya paling sering memakai LMStudio(https://lmstudio.ai/). Antarmukanya mudah seperti ChatGPT atau Claude, dan Anda bisa langsung mencari/mengunduh model dari dalam program. Untuk pemula pun LMStudio saja sudah cukup, dan saya sering memakainya di MacBook Air M2

  • Saya penasaran bagaimana performa model ini dibanding hosted LLM seperti Claude 3.7 dalam penggunaan nyata

    • Sebenarnya use case-nya sangat berbeda, jadi tidak terlalu bermakna jika dibandingkan langsung