- Model dense 128B menangani instruction-following, reasoning, dan coding dalam satu bobot, dan tersedia sebagai public preview
- Mendukung context window 256k dan pengaturan reasoning effort per permintaan, sehingga respons chat singkat dan eksekusi agentic yang kompleks dapat ditangani oleh model yang sama
- Sesi vibe coding kini berjalan secara asinkron di cloud dan beberapa sesi dapat dijalankan secara paralel; sesi CLI lokal juga bisa di-teleport ke cloud beserta history, task state, dan approval
- Work mode di Le Chat adalah mode agentic berbasis Mistral Medium 3.5 yang memanfaatkan context dari tools, documents, mailboxes, dan calendars yang terhubung, serta meminta persetujuan eksplisit untuk tugas sensitif
- Model ini menjadi model default Le Chat dan menggantikan Devstral 2 di Vibe CLI, dengan harga API $1.5 per 1 juta input token dan $7.5 per 1 juta output token
Mistral Medium 3.5 diumumkan
- Vision encoder dilatih dari nol untuk menangani berbagai ukuran gambar dan aspect ratio
- Mencatat 77.6% di SWE-Bench Verified, mengungguli model seperti Devstral 2 dan Qwen3.5 397B A17B
- Di τ³-Telecom, model ini mencatat 91.4, dengan fokus pada banyak pemanggilan tool dan pembuatan structured output yang bisa dikonsumsi oleh downstream code
Agen coding jarak jauh Vibe
- Sesi coding kini berjalan secara asinkron di cloud, sehingga tugas panjang bisa terus diproses saat pengguna sedang tidak di depan perangkat
- Beberapa sesi dapat dijalankan paralel, agar developer tidak menjadi bottleneck di setiap langkah yang dijalankan agent
- Agen cloud dapat dimulai dari Mistral Vibe CLI atau Le Chat
- Saat berjalan, Anda dapat melihat file diff, tool call, progress state, dan pertanyaan dari agent
- Sesi CLI lokal dapat di-teleport ke cloud, termasuk session history, task state, dan approval
Struktur yang terintegrasi dengan workflow pengembangan
- Vibe berada di antara sistem yang sudah digunakan tim pengembang, sambil mempertahankan human-in-the-loop di titik-titik yang diperlukan
- GitHub terhubung melalui code dan pull request, sementara Linear dan Jira terhubung melalui issue
- Sentry terhubung untuk penanganan incident, dan aplikasi seperti Slack serta Teams untuk reporting
- Setiap sesi coding berjalan dalam sandbox terisolasi dan dapat mencakup pengeditan luas serta instalasi
- Setelah tugas selesai, agent dapat membuka GitHub pull request dan mengirim notifikasi, sehingga developer meninjau hasil alih-alih setiap keystroke
Tugas coding yang cocok dan eksekusi Le Chat
- Agen jarak jauh Vibe dirancang untuk well-defined work yang memakan waktu tetapi tetap memerlukan penilaian developer
- Tugas yang dituju mencakup module refactor, test generation, dependency upgrade, investigasi CI, dan bug fix
- Workflows dapat diorkestrasi di Mistral Studio agar Mistral Vibe bisa digunakan di Le Chat
- Fitur ini awalnya dibuat untuk lingkungan coding internal, lalu digunakan untuk enterprise customers
- Kini pekerjaan coding bisa dimulai dari web, tanpa terikat ke terminal lokal, dan beberapa tugas dapat dijalankan secara paralel
- Tugas yang dibuat di Le Chat berjalan di remote runtime yang sama dengan yang digunakan CLI dan web, lalu kembali kemudian sebagai finished branch atau draft PR
Work mode di Le Chat
- Work mode adalah mode agentic di Le Chat untuk menangani tugas kompleks, digerakkan oleh harness baru dan Mistral Medium 3.5
- Agent menjadi execution backend dari assistant itu sendiri sehingga Le Chat dapat melakukan baca-tulis, menggunakan banyak tool secara bersamaan, dan menangani project multi-step
-
Workflow lintas tool
- Dapat mengejar ketertinggalan email, message, dan calendar dalam satu kali eksekusi
- Dapat menyiapkan rapat dengan context peserta, berita terbaru, dan talking point yang diambil dari source
-
Riset dan sintesis
- Dapat meneliti topik di web, dokumen internal, dan connected tools
- Dapat membuat brief atau report terstruktur yang bisa diedit lalu di-export atau dikirim
-
Inbox dan pekerjaan tim
- Dapat melakukan inbox triage dan menulis reply draft
- Dapat membuat issue Jira dari diskusi tim dan pelanggan, lalu mengirim summary ke tim melalui Slack
- Sesi berlangsung lebih lama daripada respons chat biasa, dan dapat terus berjalan hingga selesai melalui banyak turn serta trial-and-error
- Dalam Work mode, connector aktif secara default, bukan dipilih manual, sehingga dapat mengakses context dari documents, mailboxes, calendars, dan sistem lain
- Semua tindakan agent terlihat, termasuk setiap tool call dan thinking rationale
- Untuk tugas sensitif seperti mengirim pesan, menulis dokumen, atau mengubah data, Le Chat akan meminta persetujuan eksplisit sesuai izin
Ketersediaan dan harga
- Mistral Medium 3.5 tersedia di Mistral Vibe dan Le Chat
- Remote coding agents dan Work mode di Le Chat dijalankan oleh Mistral Medium 3.5 pada paket Pro, Team, Enterprise
- Harga API adalah $1.5 per 1 juta input token dan $7.5 per 1 juta output token
- Open weights tersedia di Hugging Face dengan modified MIT license
- Untuk prototyping, model ini di-host di endpoint NVIDIA GPU-accelerated pada build.nvidia.com
- Juga tersedia sebagai NVIDIA NIM, microservice inference containerized yang scalable
1 komentar
Pendapat Hacker News
Tidak tahu apa yang dilihat semua orang di komentar. Model ini memang tidak mengalahkan model-model lain, tetapi daya saing per ukuran jelas ada
GLM 5.1 memang hebat, tetapi bahkan pada Q4 butuh sekitar 400GB, dan Kimi K2.5 juga bagus, tetapi pada kuantisasi Q4 hampir butuh 600GB
Model ini bisa dijalankan pada 70GB VRAM dengan Q4, jadi mulai mendekati ranah konsumen. Mac Studio 128GB bisa dibeli di kisaran 3500 dolar
Orang-orang yang tergila-gila pada Claude entah cuma memakai Opus atau tidak, tetapi Sonnet di paket Pro saja sudah sangat mumpuni. Model ini berjalan secara lokal, mengalahkan Sonnet terbaru, dan tidak mengenakan biaya tambahan atau mengunci akun secara sewenang-wenang hanya karena ada HERMES.md di repo
Mistral memang belum pernah benar-benar kompetitif di frontier, tetapi mungkin itu memang bukan peran yang seharusnya kita harapkan dari Mistral. Jika ini adalah model Pareto yang memberi 80% kemampuan frontier dengan 20% biaya/ukuran, itu sudah terlihat sangat bagus
Model seperti ini memang bisa dijalankan di Mac 128GB, tetapi pertama-tama kita harus lihat apakah Q4 cukup mempertahankan kualitas. Setiap model punya sensitivitas kuantisasi yang berbeda, dan kecepatan nyata juga penting
Untuk pekerjaan asinkron atau pekerjaan latar belakang, kecepatan pemrosesan prompt dan generasi token memang kurang penting, tetapi banyak pembeli Mac Studio akhirnya sadar dengan susah payah bahwa responsivitasnya tidak sebaik model yang di-host pada perangkat keras cloud yang layak
Bagi kebanyakan orang yang tidak punya kebutuhan kuat untuk pemrosesan on-premise, penggunaan terbaik model ini mungkin lewat salah satu penyedia hosting OpenRouter dan membayar per token
Hampir semua model open-weight yang keluar tahun ini disebut setara atau melampaui Sonnet, tetapi meski di benchmark jelas unggul, dalam praktik saya belum pernah benar-benar merasakan itu
Saya suka ungkapan Claude Pilled
Benchmark-nya memakai F8_E4M3, dan itu tidak bisa dijalankan di Mac mana pun
Sonnet punya konteks 1M token, sedangkan model ini 256k, dan secara lokal pun kemungkinan besar itu tidak akan bisa dimanfaatkan dengan baik
Sonnet juga cepat meski lewat jaringan, sementara model ini akan jauh lebih lambat
Sayang sekali model open source di luar Tiongkok tampak tertinggal setidaknya satu generasi
Saya selalu mendukung Mistral. Keragaman model dan negara itu penting
Model kali ini tampak seperti fondasi yang kokoh untuk dibangun lebih lanjut, dan semoga lebih banyak peningkatan masuk di 3.6/3.7. Dari benchmark computer use, pipeline vision tampaknya masih punya ruang untuk perbaikan, tetapi itu hanya dugaan
Melihat beberapa hasil benchmark yang berbeda, rasanya ini benar-benar model yang dilatih secara independen, bukan sekadar menyalin log frontier. Itu juga sangat penting
Keberadaan weight architecture lain di dalam model tertentu tampak seperti keunggulan tersendiri dari sudut pandang arsitektur sistem global
Bagus untuk pasar kalau Mistral terus merilis model yang dapat diandalkan
Agar pembeli punya daya tawar dalam harga dan negosiasi deployment, struktur pasar harus melampaui situasi memilih hanya salah satu dari dua perusahaan
Dibanding LLM hosted lain yang saya uji, sepertinya hanya Mistral yang memakai header CSP cukup ketat
Jika diminta membuat situs web dengan library JavaScript, preview tidak tampil di Le Chat meskipun ada canvas mode
Kadang saya cuma ingin menguji sedikit lewat web saat ada rilis baru, tetapi itu sulit kalau tidak membayar atau memakai agent harness
Model ini benar-benar buruk dalam menggambar SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
Saat saya minta bantuan menyiapkan server MCP di Vibe, model itu dengan percaya diri menjelaskan bahwa MCP adalah MineCraft Protocol lalu mulai mencari biner Minecraft di komputer saya
Semua model gagal dalam hal ini, hanya saja beberapa gagal dengan cara yang lebih lucu
Saya memakai mistral-medium-2508 untuk tugas transformasi teks, dan untuk kebutuhan saya hasilnya lebih baik daripada mistral-large
Saya ingin menguji model baru ini juga, tetapi harganya jauh lebih mahal dan diposisikan sebagai model coding/agentic, jadi saya tidak yakin apakah ini memang dimaksudkan untuk menggantikan model medium sebelumnya
mistral-medium-2508 harganya $0.4/$2 per 1M token, sedangkan mistral-medium-3.5 adalah $1.5/$7.5
Hasilnya hampir setara Sonnet dengan biaya 90% lebih murah. Saya tidak akan pernah memakainya untuk coding, tetapi untuk tugas analisis teks ini hasilnya sangat bagus. Bahkan jauh lebih baik daripada model-model Tiongkok terbaru
Karena itu saya menunggu rilis ini, tetapi ternyata 5 kali lebih mahal daripada Mistral Large terbaru. Saya khawatir Large murah itu akan dihentikan saat transisi rilis
Masalah model ini adalah DeepSeek v4 Flash berjalan cukup baik pada kuantisasi 2-bit https://github.com/antirez/llama.cpp-deepseek-v4-flash
Di M3 Ultra, hasilnya 30 t/s untuk generasi dan 400 t/s untuk prefill, dan di MacBook Pro M3 Max 128GB juga tidak jauh lebih lambat
Jika dipakai bersama opencode/pi, ini berfungsi sebagai coding agent yang bagus dan tool calling-nya juga sangat stabil. Kecepatan seperti ini mustahil dicapai model dense 120B
Jadi model ini tidak hanya harus bersaing dengan model kuantisasi 4-bit dengan ukuran serupa, tetapi juga dengan DeepSeek v4 Flash yang file GGUF-nya 86GB, dan dari sudut pandang penggunaan nyata untuk inferensi lokal, tidak akan mudah untuk menang
Ada peningkatan kecepatan yang belum di-commit juga dan akan segera di-push. Tree saat ini mungkin sedikit lebih lambat, tetapi tetap sangat layak dipakai
Saya penggemar Mistral dan tinggal di Eropa, tetapi ada hal yang tidak saya pahami. Mistral membuka arus MoE open-weight lewat Mixtral, jadi saya tidak paham kenapa sekarang justru merilis model dense yang cukup besar
Dengan pendekatan seperti ini, sulit bersaing secara andal baik di inferensi lokal maupun jarak jauh. Sebab modelnya tidak dekat dengan SOTA dan biaya serving-nya juga tidak murah
Model dense memang punya tempat di kisaran puluhan miliar parameter seperti Qwen 3.6 27B, tetapi kalau sampai 5 kali lebih besar, itu tidak masuk akal kecuali benar-benar mendominasi model lain yang menuntut VRAM serupa dari sisi kemampuan
Ini hampir tidak ada kaitannya dengan bagaimana performanya dalam agentic workflow. Kita sudah tahu bahwa pada kuantisasi Q2, kualitas sering turun drastis
Jika Flash terkuantisasi ini bisa mempertahankan kualitas dan performa yang layak pada panjang konteks yang lebih besar, sambil tetap menjaga bagian yang tampak seperti fitur inti seri V4, maka ini bisa menjadi pesaing yang cukup masuk akal bagi model dengan kelas weight serupa seperti Qwen 3 Coder-Next 80B
Rilis Mistral kali ini kembali mengingatkan saya pada kesenjangan antara frontier lab dan pemain lainnya
Sebelum era agent, perbedaan antarmodel tidak selalu jelas, dan setiap model punya daya tariknya sendiri
Sekarang saya tidak ingin memakai apa pun yang lebih buruk dari model frontier. Selisih kemampuannya sangat besar, dan memilih model yang lebih lemah benar-benar menimbulkan biaya produktivitas
Saya sudah lama menyukai lab kecil seperti Mistral dan terutama Cohere, tetapi sudah cukup lama saya tidak merasa antusias dengan rilis dari dua perusahaan itu
Meski begitu, saya memakai mistral voxtral realtime setiap hari dan itu luar biasa
Dua tahun lalu bahkan lebih parah lagi
Tetapi Claude Code jauh lebih baik daripada Codex, dan Codex jelas lebih baik daripada Gemini-cli
Dalam konteks ini, tidak mengherankan jika Claude Code jauh lebih baik daripada model non-frontier untuk coding agentic. Untuk tugas agentic yang terspesialisasi, ia juga jauh lebih baik daripada frontier model lainnya
Untuk sebagian besar tugas, termasuk pekerjaan coding yang kompleks, perbedaan antara model frontier dan model seperti GPT-4.1 hampir tidak bisa dibedakan
Untuk benar-benar melihat bedanya, Anda harus fokus sekali pada area seperti context window, tool calling, atau aspek tertentu dari reasoning step
Selain itu, model frontier cenderung memakai pendekatan brute force untuk menghasilkan output, sehingga biaya eksekusinya jauh lebih mahal. Bukan cuma biaya yang muncul di tagihan, tetapi juga waktu tunggu sampai keluar output apa pun
Belum lagi kalau bicara soal model lokal
Mistral tampaknya bermain untuk jangka panjang di sini. Model lebih kecil, biaya lebih rendah, dan performa yang secara umum cukup bagus
Lumayan, tetapi tidak istimewa. Tetap saja, kabar tentang model yang bukan dari AS dan bukan dari Tiongkok tetap kabar baik
Lucu juga bahwa sekarang 128B dianggap Medium
Dulu ada masa ketika GPT-2 dengan 355M parameter dianggap medium
Mungkin penilaian itu memang benar