9 poin oleh GN⁺ 2025-12-10 | 1 komentar | Bagikan ke WhatsApp
  • Devstral 2 adalah model coding open source generasi berikutnya dengan 123B parameter, mencatat performa 72,2% di SWE-bench Verified dan mencapai efisiensi tinggi dibanding model pesaing
  • Devstral Small 2 memiliki 24B parameter dan dapat dijalankan di hardware konsumen, serta didistribusikan dengan lisensi Apache 2.0
  • Mistral Vibe CLI adalah agen terminal open source berbasis Devstral yang dapat menelusuri, mengubah, dan menjalankan kode lewat bahasa alami
  • Devstral 2 menawarkan efisiensi biaya hingga 7 kali dibanding Claude Sonnet, tetap mempertahankan performa tinggi meski 5 kali lebih kecil dari DeepSeek V3.2
  • Dinilai sebagai alat kunci dalam ekosistem open source untuk otomatisasi kode skala besar dan percepatan kecerdasan terdistribusi

Ikhtisar Devstral 2

  • Devstral 2 adalah model dense transformer dengan 123B parameter yang mendukung context window 256K
    • Mencapai performa 72,2% di SWE-bench Verified, menempatkannya di jajaran atas model berbobot terbuka
    • Dirilis dengan lisensi MIT yang dimodifikasi, menetapkan standar baru untuk agen kode open source
  • Devstral Small 2 mencatat performa 68,0% di SWE-bench Verified, setara dengan model yang ukurannya hingga 5 kali lebih besar
    • Dapat dijalankan secara lokal di hardware konsumen, menghadirkan inferensi cepat dan loop umpan balik yang dipersonalisasi
    • Mendukung input gambar dan dapat menjalankan agen multimodal
  • Devstral 2 (123B) dan Small 2 (24B) masing-masing 5 kali dan 28 kali lebih kecil daripada DeepSeek V3.2, serta 8 kali dan 41 kali lebih kecil daripada Kimi K2
    • Arsitektur model yang diperkecil memudahkan deployment bahkan pada hardware terbatas
Iklan

Dukungan workflow kelas produksi

  • Devstral 2 mendukung penelusuran codebase dan pengelolaan perubahan multi-file, sambil mempertahankan konteks pada level arsitektur
    • Termasuk pelacakan dependensi framework, deteksi kegagalan, dan retry otomatis
    • Mampu melakukan perbaikan bug dan modernisasi sistem legacy
  • Mendukung fine-tuning yang disesuaikan untuk bahasa tertentu atau codebase enterprise berskala besar
  • Dalam perbandingan evaluasi manusia dengan DeepSeek V3.2 dan Claude Sonnet 4.5, unggul atas DeepSeek (tingkat kemenangan 42,8%)
    • Namun, masih ada gap performa dibanding Claude Sonnet 4.5
  • Cline menilai Devstral 2 sebagai “model coding open source kelas atas” dan menyebut tingkat keberhasilan tool calling-nya setara dengan model tertutup
  • Kilo Code mengumumkan penggunaan 17B token dalam 24 jam pertama sejak peluncuran

Mistral Vibe CLI

  • Asisten coding CLI open source berbasis Devstral yang memungkinkan penelusuran, pengubahan, dan eksekusi kode melalui perintah bahasa alami
    • Dirilis dengan lisensi Apache 2.0
    • Dapat digunakan di terminal atau IDE (integrasi Agent Communication Protocol)
  • Fitur utama
    • Context yang sadar proyek: otomatis memindai struktur file dan status Git
    • Referensi cerdas: autocomplete @, eksekusi perintah !, perubahan pengaturan dengan slash command
    • Orkestrasi multi-file: penalaran level arsitektur melalui pemahaman seluruh codebase
    • Mendukung riwayat persisten, autocomplete, dan kustomisasi tema
  • Workflow dapat dikustomisasi dengan eksekusi skrip, toggle persetujuan otomatis, pengaturan model lokal, dan kontrol izin
Iklan

Deployment dan penggunaan

  • Devstral 2 saat ini tersedia lewat API gratis, dengan tarif $0.40/$2.00 per input/output di kemudian hari
    • Devstral Small 2 akan dikenai tarif $0.10/$0.30
  • Dapat digunakan melalui integrasi dengan alat agen terbuka seperti Kilo Code dan Cline
  • Vibe CLI dapat digunakan langsung melalui ekstensi Zed IDE
  • Devstral 2 memerlukan GPU kelas data center (minimal 4×H100) dan dapat dicoba di build.nvidia.com
    • Devstral Small 2 dapat dijalankan bahkan pada GPU tunggal atau lingkungan CPU
    • Dukungan NVIDIA NIM akan hadir
  • Untuk performa optimal, disarankan pengaturan temperature 0.2 serta best practice dari Vibe CLI

Komunitas dan rekrutmen

  • Mistral mendorong komunitas untuk membagikan proyek dan memberikan masukan dengan memanfaatkan Devstral 2, Small 2, dan Vibe CLI
    • Komunikasi tersedia melalui kanal X/Twitter, Discord, dan GitHub
  • Sedang merekrut talenta untuk riset open source dan pengembangan antarmuka, dengan lamaran melalui halaman karier resmi Mistral

1 komentar

 
GN⁺ 2025-12-10
Komentar Hacker News
  • Menginstal model Mistral dengan perintah llm install llm-mistral, lalu setelah llm mistral refresh, menghasilkan gambar SVG dengan llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"
    Hasilnya bisa dilihat di tautan ini. Untuk model 123B, hasilnya cukup bagus
    ID modelnya mungkin tidak akurat, jadi sudah ditanyakan langsung ke Mistral

    • Sekarang ada kemungkinan prompt seperti “buat SVG pelikan yang sedang mengendarai sepeda” sudah masuk ke data pelatihan. Bagus untuk benchmark, tetapi menurut saya pengujian acak juga perlu untuk menghindari benchmaxxing
    • Jadi penasaran apakah model ini juga bisa mereproduksi situs web Space Jam 1996
    • SVG memang kode, tetapi bukan kode yang bisa dieksekusi, jadi agak menyesatkan jika dipakai untuk menilai model coding. Meski begitu, hasilnya tetap mengesankan
    • Penasaran dari mana mendapatkan tool llm
    • Sepertinya model ini melewatkan sepeda dan malah meng-upgrade-nya menjadi motor yang keren
  • Mistral tertinggal sekitar satu tahun dari SOTA, tetapi sekarang daya saing kecepatan dan harganya makin bagus. Masih belum cukup untuk saya pakai, tetapi mereka cepat menyusul. Model pesaing yang saya lihat adalah Haiku 4.5, Gemini 3 Pro Fast, dan model ringan baru OpenAI (GPT 5.1 Codex Max Extra High Fast?)

    • Katanya nama model baru OpenAI itu Garlic, masa iya benar-benar akan dirilis dengan nama itu?
    • Dibandingkan Deepseek-v3.2, kemampuan umumnya jauh lebih lemah, dan harganya 5 kali lebih mahal
  • Menjalankan Devstral 2 lewat CLI untuk me-review proyek pribadi berukuran 500KB
    Model ini memahami fungsi program dengan tepat, memperbaiki 2 bug, meningkatkan kode, dan menambahkan 2 fitur kecil.
    Memang sempat membuat satu bug baru, tetapi langsung diperbaiki begitu diberi tahu.
    Perubahan kodenya minimal dan tidak ada penulisan ulang yang tidak perlu.
    Masih terlalu dini untuk menyimpulkan, tetapi tampaknya ini model yang kompeten

    • Penasaran dijalankan di perangkat keras seperti apa
  • Saya berniat mencoba Devstral sendiri. Model sebelumnya juga lumayan untuk agent coding lokal.
    Tapi nama “Vibe CLI” terasa terlalu ringan.
    ‘Vibe-coding’ memang menyenangkan untuk menguji batas model, tetapi tidak cocok untuk pekerjaan profesional yang butuh kontrol kualitas.
    Sekarang semua orang sibuk dengan vibe-coding, tetapi saya bertanya-tanya di mana tool LLM profesional yang benar-benar membantu kecerdasan manusia

    • Agen CLI baru mistral-vibe ditulis dalam Python dan mendukung protokol ACP milik Zed
    • Banyak aplikasi dibuat sebagai layanan sementara untuk tujuan bisnis jangka pendek, jadi agentic coding cukup berguna untuk “layanan kardus” seperti itu. Tetapi untuk infrastruktur data industri, ini tidak cocok
    • Brokk yang kami buat adalah tool profesional seperti itu. Lihat pengantar di posting blog ini
    • Ada juga respons seperti, “Jadi maksudnya Claude Code itu kurang memadai?”
    • Ada pendapat bahwa sekarang kualitas spesifikasi dan pengujian lebih penting daripada kualitas kode itu sendiri
  • Sedang mempertimbangkan konfigurasi hardware $5.000 untuk menjalankan Devstral Small 2.
    Penasaran dengan kecepatan pemrosesan token di Mac 32GB, RTX 4090, DGX Spark, RTX 5090, GPU eksternal (Oculink), dan sebagainya

    • $5.000 itu anggaran yang serba nanggung, jadi disarankan menyewa GPU cloud.
      Kalau ingin performa tinggi, RTX 5090; untuk kompatibilitas CUDA, DGX Spark; untuk model besar, Strix Halo 128GB atau M3 Ultra cocok.
      Benchmark nyata sebaiknya dicari di r/LocalLLaMA
    • Konfigurasi dual 3090 (24GB×2) saat ini adalah yang paling bagus dari sisi value for money.
      Kalau mau lebih jauh lagi, ada juga server 8×V100 (32GB×8, RAM 512GB, NVLink). Hanya saja perlu listrik 240V
    • Saya memakai kombinasi 7900XTX + 128GB DDR4. Dan saya tidak suka NVIDIA
  • Nama “Vibe CLI” terdengar seperti tool yang terlalu ringan.
    Saya sering memakai Claude Code, tetapi saya tidak menyebut itu vibe-coding

    • Nama seperti ini mungkin cuma meme pemasaran. Seolah ingin menarik perhatian dengan artikel seperti, “Perusahaan Prancis merilis tool untuk ‘ngoding dengan vibe’!”
    • Menurut saya, menulis kode dengan LLM pada dasarnya memang lebih cocok untuk pekerjaan ringan
    • Kalau Anda menyerahkan kode ke Claude, itu sudah termasuk vibe-coding
    • Mungkin ini cuma penamaan yang bercanda
  • Senang karena ini CLI yang tidak memakai React.
    Vibe-cli dibuat dengan framework Textual

    • Hanya saja, karena berbasis Python, saya khawatir kecepatan output-nya lambat. Dulu saya mengalami masalah serupa di Aider
  • Kalau Mistral 10 kali lebih murah per token dibanding Claude, itu cukup menarik.
    Selama performanya tidak 10 kali lebih buruk, itu nilai plus besar

    • GPT 5-mini juga jauh lebih murah daripada Haiku, tetapi saat dipakai nyata malah terasa seperti buang-buang waktu.
      Di kantor kami memakai Haiku, Sonnet, dan Opus, tetapi untuk anggaran pribadi saya memakai minimax m2
    • Kalau 10 kali lebih murah tapi 2 kali lebih lambat, pada akhirnya bisa jadi lebih mahal karena membuang token
    • Model SOTA saat ini pun belum sempurna untuk coding, jadi menurut saya tidak perlu terlalu fokus pada optimisasi harga
  • Saya membuat paket AUR untuk Mistral-vibe
    Tautan paket

  • Jika Anda pengguna Nix, bisa langsung menjalankannya dengan perintah berikut

    nix run github:numtide/llm-agents.nix#mistral-vibe
    

    Repositori ini diperbarui setiap hari

    • Menurut saya ini proyek yang sangat keren. Terima kasih sudah membagikannya