Mistral Medium 3.5

(mistral.ai)

1 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp

Model dense 128B menangani instruction-following, reasoning, dan coding dalam satu bobot, dan tersedia sebagai public preview
Mendukung context window 256k dan pengaturan reasoning effort per permintaan, sehingga respons chat singkat dan eksekusi agentic yang kompleks dapat ditangani oleh model yang sama
Sesi vibe coding kini berjalan secara asinkron di cloud dan beberapa sesi dapat dijalankan secara paralel; sesi CLI lokal juga bisa di-teleport ke cloud beserta history, task state, dan approval
Work mode di Le Chat adalah mode agentic berbasis Mistral Medium 3.5 yang memanfaatkan context dari tools, documents, mailboxes, dan calendars yang terhubung, serta meminta persetujuan eksplisit untuk tugas sensitif
Model ini menjadi model default Le Chat dan menggantikan Devstral 2 di Vibe CLI, dengan harga API $1.5 per 1 juta input token dan $7.5 per 1 juta output token

Mistral Medium 3.5 diumumkan

Vision encoder dilatih dari nol untuk menangani berbagai ukuran gambar dan aspect ratio
Mencatat 77.6% di SWE-Bench Verified, mengungguli model seperti Devstral 2 dan Qwen3.5 397B A17B
Di τ³-Telecom, model ini mencatat 91.4, dengan fokus pada banyak pemanggilan tool dan pembuatan structured output yang bisa dikonsumsi oleh downstream code

Agen coding jarak jauh Vibe

Sesi coding kini berjalan secara asinkron di cloud, sehingga tugas panjang bisa terus diproses saat pengguna sedang tidak di depan perangkat
Beberapa sesi dapat dijalankan paralel, agar developer tidak menjadi bottleneck di setiap langkah yang dijalankan agent
Agen cloud dapat dimulai dari Mistral Vibe CLI atau Le Chat
Saat berjalan, Anda dapat melihat file diff, tool call, progress state, dan pertanyaan dari agent
Sesi CLI lokal dapat di-teleport ke cloud, termasuk session history, task state, dan approval

Struktur yang terintegrasi dengan workflow pengembangan

Vibe berada di antara sistem yang sudah digunakan tim pengembang, sambil mempertahankan human-in-the-loop di titik-titik yang diperlukan
GitHub terhubung melalui code dan pull request, sementara Linear dan Jira terhubung melalui issue
Sentry terhubung untuk penanganan incident, dan aplikasi seperti Slack serta Teams untuk reporting
Setiap sesi coding berjalan dalam sandbox terisolasi dan dapat mencakup pengeditan luas serta instalasi
Setelah tugas selesai, agent dapat membuka GitHub pull request dan mengirim notifikasi, sehingga developer meninjau hasil alih-alih setiap keystroke

Tugas coding yang cocok dan eksekusi Le Chat

Agen jarak jauh Vibe dirancang untuk well-defined work yang memakan waktu tetapi tetap memerlukan penilaian developer
Tugas yang dituju mencakup module refactor, test generation, dependency upgrade, investigasi CI, dan bug fix
Workflows dapat diorkestrasi di Mistral Studio agar Mistral Vibe bisa digunakan di Le Chat
Fitur ini awalnya dibuat untuk lingkungan coding internal, lalu digunakan untuk enterprise customers
Kini pekerjaan coding bisa dimulai dari web, tanpa terikat ke terminal lokal, dan beberapa tugas dapat dijalankan secara paralel
Tugas yang dibuat di Le Chat berjalan di remote runtime yang sama dengan yang digunakan CLI dan web, lalu kembali kemudian sebagai finished branch atau draft PR

Work mode di Le Chat

Work mode adalah mode agentic di Le Chat untuk menangani tugas kompleks, digerakkan oleh harness baru dan Mistral Medium 3.5
Agent menjadi execution backend dari assistant itu sendiri sehingga Le Chat dapat melakukan baca-tulis, menggunakan banyak tool secara bersamaan, dan menangani project multi-step
Workflow lintas tool
- Dapat mengejar ketertinggalan email, message, dan calendar dalam satu kali eksekusi
- Dapat menyiapkan rapat dengan context peserta, berita terbaru, dan talking point yang diambil dari source
Riset dan sintesis
- Dapat meneliti topik di web, dokumen internal, dan connected tools
- Dapat membuat brief atau report terstruktur yang bisa diedit lalu di-export atau dikirim
Inbox dan pekerjaan tim
- Dapat melakukan inbox triage dan menulis reply draft
- Dapat membuat issue Jira dari diskusi tim dan pelanggan, lalu mengirim summary ke tim melalui Slack
- Sesi berlangsung lebih lama daripada respons chat biasa, dan dapat terus berjalan hingga selesai melalui banyak turn serta trial-and-error
- Dalam Work mode, connector aktif secara default, bukan dipilih manual, sehingga dapat mengakses context dari documents, mailboxes, calendars, dan sistem lain
- Semua tindakan agent terlihat, termasuk setiap tool call dan thinking rationale
- Untuk tugas sensitif seperti mengirim pesan, menulis dokumen, atau mengubah data, Le Chat akan meminta persetujuan eksplisit sesuai izin

Ketersediaan dan harga

Mistral Medium 3.5 tersedia di Mistral Vibe dan Le Chat
Remote coding agents dan Work mode di Le Chat dijalankan oleh Mistral Medium 3.5 pada paket Pro, Team, Enterprise
Harga API adalah $1.5 per 1 juta input token dan $7.5 per 1 juta output token
Open weights tersedia di Hugging Face dengan modified MIT license
Untuk prototyping, model ini di-host di endpoint NVIDIA GPU-accelerated pada build.nvidia.com
Juga tersedia sebagai NVIDIA NIM, microservice inference containerized yang scalable

1 komentar

GN⁺ 5 jam lalu

Pendapat Hacker News

Tidak tahu apa yang dilihat semua orang di komentar. Model ini memang tidak mengalahkan model-model lain, tetapi daya saing per ukuran jelas ada
GLM 5.1 memang hebat, tetapi bahkan pada Q4 butuh sekitar 400GB, dan Kimi K2.5 juga bagus, tetapi pada kuantisasi Q4 hampir butuh 600GB
Model ini bisa dijalankan pada 70GB VRAM dengan Q4, jadi mulai mendekati ranah konsumen. Mac Studio 128GB bisa dibeli di kisaran 3500 dolar
Orang-orang yang tergila-gila pada Claude entah cuma memakai Opus atau tidak, tetapi Sonnet di paket Pro saja sudah sangat mumpuni. Model ini berjalan secara lokal, mengalahkan Sonnet terbaru, dan tidak mengenakan biaya tambahan atau mengunci akun secara sewenang-wenang hanya karena ada HERMES.md di repo
Mistral memang belum pernah benar-benar kompetitif di frontier, tetapi mungkin itu memang bukan peran yang seharusnya kita harapkan dari Mistral. Jika ini adalah model Pareto yang memberi 80% kemampuan frontier dengan 20% biaya/ukuran, itu sudah terlihat sangat bagus
- Bagi siapa pun yang tertarik pada LLM lokal, perlu dipahami bahwa model yang “bisa dijalankan” dan “bisa dijalankan dengan cepat” adalah dua standar yang sama sekali berbeda
  Model seperti ini memang bisa dijalankan di Mac 128GB, tetapi pertama-tama kita harus lihat apakah Q4 cukup mempertahankan kualitas. Setiap model punya sensitivitas kuantisasi yang berbeda, dan kecepatan nyata juga penting
  Untuk pekerjaan asinkron atau pekerjaan latar belakang, kecepatan pemrosesan prompt dan generasi token memang kurang penting, tetapi banyak pembeli Mac Studio akhirnya sadar dengan susah payah bahwa responsivitasnya tidak sebaik model yang di-host pada perangkat keras cloud yang layak
  Bagi kebanyakan orang yang tidak punya kebutuhan kuat untuk pemrosesan on-premise, penggunaan terbaik model ini mungkin lewat salah satu penyedia hosting OpenRouter dan membayar per token
  Hampir semua model open-weight yang keluar tahun ini disebut setara atau melampaui Sonnet, tetapi meski di benchmark jelas unggul, dalam praktik saya belum pernah benar-benar merasakan itu
- Saya tadinya tidak tahu soal HERMES.md, tetapi yang penasaran bisa cari informasinya di sini https://github.com/anthropics/claude-code/issues/53262
- Sebelum Februari, saya bisa terus memakai Opus High di paket Max tanpa masalah, tetapi sekarang hanya memakai Sonnet High dan itu cukup mumpuni
  Saya suka ungkapan Claude Pilled
- Klaim bahwa ini “berjalan lokal sambil mengalahkan Sonnet terbaru” itu tidak benar
  Benchmark-nya memakai F8_E4M3, dan itu tidak bisa dijalankan di Mac mana pun
  Sonnet punya konteks 1M token, sedangkan model ini 256k, dan secara lokal pun kemungkinan besar itu tidak akan bisa dimanfaatkan dengan baik
  Sonnet juga cepat meski lewat jaringan, sementara model ini akan jauh lebih lambat
- Jangan lupakan juga Qwen 35B A3B MoE. Model itu memberi performa lebih baik di semua metrik dibanding model ini, dengan biaya memori/komputasi yang jauh lebih kecil
  Sayang sekali model open source di luar Tiongkok tampak tertinggal setidaknya satu generasi
Saya selalu mendukung Mistral. Keragaman model dan negara itu penting
Model kali ini tampak seperti fondasi yang kokoh untuk dibangun lebih lanjut, dan semoga lebih banyak peningkatan masuk di 3.6/3.7. Dari benchmark computer use, pipeline vision tampaknya masih punya ruang untuk perbaikan, tetapi itu hanya dugaan
Melihat beberapa hasil benchmark yang berbeda, rasanya ini benar-benar model yang dilatih secara independen, bukan sekadar menyalin log frontier. Itu juga sangat penting
Keberadaan weight architecture lain di dalam model tertentu tampak seperti keunggulan tersendiri dari sudut pandang arsitektur sistem global
Bagus untuk pasar kalau Mistral terus merilis model yang dapat diandalkan
Agar pembeli punya daya tawar dalam harga dan negosiasi deployment, struktur pasar harus melampaui situasi memilih hanya salah satu dari dua perusahaan
Dibanding LLM hosted lain yang saya uji, sepertinya hanya Mistral yang memakai header CSP cukup ketat
Jika diminta membuat situs web dengan library JavaScript, preview tidak tampil di Le Chat meskipun ada canvas mode
Kadang saya cuma ingin menguji sedikit lewat web saat ada rilis baru, tetapi itu sulit kalau tidak membayar atau memakai agent harness
Model ini benar-benar buruk dalam menggambar SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
- SVG mungkin bukan benchmark terbaik, tetapi ini sesuai dengan pengalaman saya memakai model Mistral lama di Mistral Vibe
  Saat saya minta bantuan menyiapkan server MCP di Vibe, model itu dengan percaya diri menjelaskan bahwa MCP adalah MineCraft Protocol lalu mulai mencari biner Minecraft di komputer saya
- Saya tidak pernah ingin, butuh, atau berharap LLM menggambar SVG
  Semua model gagal dalam hal ini, hanya saja beberapa gagal dengan cara yang lebih lucu
Saya memakai mistral-medium-2508 untuk tugas transformasi teks, dan untuk kebutuhan saya hasilnya lebih baik daripada mistral-large
Saya ingin menguji model baru ini juga, tetapi harganya jauh lebih mahal dan diposisikan sebagai model coding/agentic, jadi saya tidak yakin apakah ini memang dimaksudkan untuk menggantikan model medium sebelumnya
mistral-medium-2508 harganya $0.4/$2 per 1M token, sedangkan mistral-medium-3.5 adalah $1.5/$7.5
- Saya memakai Mistral Large di produksi untuk memproses potongan teks besar
  Hasilnya hampir setara Sonnet dengan biaya 90% lebih murah. Saya tidak akan pernah memakainya untuk coding, tetapi untuk tugas analisis teks ini hasilnya sangat bagus. Bahkan jauh lebih baik daripada model-model Tiongkok terbaru
  Karena itu saya menunggu rilis ini, tetapi ternyata 5 kali lebih mahal daripada Mistral Large terbaru. Saya khawatir Large murah itu akan dihentikan saat transisi rilis
Masalah model ini adalah DeepSeek v4 Flash berjalan cukup baik pada kuantisasi 2-bit https://github.com/antirez/llama.cpp-deepseek-v4-flash
Di M3 Ultra, hasilnya 30 t/s untuk generasi dan 400 t/s untuk prefill, dan di MacBook Pro M3 Max 128GB juga tidak jauh lebih lambat
Jika dipakai bersama opencode/pi, ini berfungsi sebagai coding agent yang bagus dan tool calling-nya juga sangat stabil. Kecepatan seperti ini mustahil dicapai model dense 120B
Jadi model ini tidak hanya harus bersaing dengan model kuantisasi 4-bit dengan ukuran serupa, tetapi juga dengan DeepSeek v4 Flash yang file GGUF-nya 86GB, dan dari sudut pandang penggunaan nyata untuk inferensi lokal, tidak akan mudah untuk menang
Ada peningkatan kecepatan yang belum di-commit juga dan akan segera di-push. Tree saat ini mungkin sedikit lebih lambat, tetapi tetap sangat layak dipakai
Saya penggemar Mistral dan tinggal di Eropa, tetapi ada hal yang tidak saya pahami. Mistral membuka arus MoE open-weight lewat Mixtral, jadi saya tidak paham kenapa sekarang justru merilis model dense yang cukup besar
Dengan pendekatan seperti ini, sulit bersaing secara andal baik di inferensi lokal maupun jarak jauh. Sebab modelnya tidak dekat dengan SOTA dan biaya serving-nya juga tidak murah
Model dense memang punya tempat di kisaran puluhan miliar parameter seperti Qwen 3.6 27B, tetapi kalau sampai 5 kali lebih besar, itu tidak masuk akal kecuali benar-benar mendominasi model lain yang menuntut VRAM serupa dari sisi kemampuan
- Tautan GitHub itu hanya mengatakan bahwa “model yang dikuantisasi dengan cara ini bekerja sangat baik dalam chat dan punya nuansa frontier-model, tetapi belum diuji secara luas”
  Ini hampir tidak ada kaitannya dengan bagaimana performanya dalam agentic workflow. Kita sudah tahu bahwa pada kuantisasi Q2, kualitas sering turun drastis
  Jika Flash terkuantisasi ini bisa mempertahankan kualitas dan performa yang layak pada panjang konteks yang lebih besar, sambil tetap menjaga bagian yang tampak seperti fitur inti seri V4, maka ini bisa menjadi pesaing yang cukup masuk akal bagi model dengan kelas weight serupa seperti Qwen 3 Coder-Next 80B
Rilis Mistral kali ini kembali mengingatkan saya pada kesenjangan antara frontier lab dan pemain lainnya
Sebelum era agent, perbedaan antarmodel tidak selalu jelas, dan setiap model punya daya tariknya sendiri
Sekarang saya tidak ingin memakai apa pun yang lebih buruk dari model frontier. Selisih kemampuannya sangat besar, dan memilih model yang lebih lemah benar-benar menimbulkan biaya produktivitas
Saya sudah lama menyukai lab kecil seperti Mistral dan terutama Cohere, tetapi sudah cukup lama saya tidak merasa antusias dengan rilis dari dua perusahaan itu
Meski begitu, saya memakai mistral voxtral realtime setiap hari dan itu luar biasa
- Saya sama sekali tidak setuju. Baru setahun lalu, kesenjangan produktivitas antara model frontier dan non-frontier jauh lebih besar
  Dua tahun lalu bahkan lebih parah lagi
- Untuk tugas non-agentic, tidak ada pemenang yang jelas secara umum antara Gemini, ChatGPT, dan Claude. Kalau hanya berdasarkan antarmuka chatbot sederhana, itu apples to oranges
  Tetapi Claude Code jauh lebih baik daripada Codex, dan Codex jelas lebih baik daripada Gemini-cli
  Dalam konteks ini, tidak mengherankan jika Claude Code jauh lebih baik daripada model non-frontier untuk coding agentic. Untuk tugas agentic yang terspesialisasi, ia juga jauh lebih baik daripada frontier model lainnya
- Mengatakan bahwa Anda tidak ingin memakai apa pun yang lebih buruk dari model frontier itu cukup naif dan keliru
  Untuk sebagian besar tugas, termasuk pekerjaan coding yang kompleks, perbedaan antara model frontier dan model seperti GPT-4.1 hampir tidak bisa dibedakan
  Untuk benar-benar melihat bedanya, Anda harus fokus sekali pada area seperti context window, tool calling, atau aspek tertentu dari reasoning step
  Selain itu, model frontier cenderung memakai pendekatan brute force untuk menghasilkan output, sehingga biaya eksekusinya jauh lebih mahal. Bukan cuma biaya yang muncul di tagihan, tetapi juga waktu tunggu sampai keluar output apa pun
  Belum lagi kalau bicara soal model lokal
Mistral tampaknya bermain untuk jangka panjang di sini. Model lebih kecil, biaya lebih rendah, dan performa yang secara umum cukup bagus
Lumayan, tetapi tidak istimewa. Tetap saja, kabar tentang model yang bukan dari AS dan bukan dari Tiongkok tetap kabar baik
- Mungkin ini standar dasar Eropa
Lucu juga bahwa sekarang 128B dianggap Medium
Dulu ada masa ketika GPT-2 dengan 355M parameter dianggap medium
- GPT-2 1.5B dulu dianggap terlalu berbahaya untuk dirilis
  Mungkin penilaian itu memang benar

Mistral Medium 3.5

Mistral Medium 3.5 diumumkan

Agen coding jarak jauh Vibe

Struktur yang terintegrasi dengan workflow pengembangan

Tugas coding yang cocok dan eksekusi Le Chat

Work mode di Le Chat

Workflow lintas tool

Riset dan sintesis

Inbox dan pekerjaan tim

Ketersediaan dan harga

Bacaan terkait

1 komentar

Pendapat Hacker News