2 poin oleh GN⁺ 2026-04-30 | 1 komentar | Bagikan ke WhatsApp
  • Model 128B Dense yang menyatukan eksekusi instruksi, penalaran, dan coding dalam satu bobot serta mendukung context window 256k
  • Dapat menyesuaikan tingkat upaya penalaran per permintaan, sehingga satu model bisa menangani mulai dari chat sederhana hingga tugas agentic yang kompleks
  • SWE-Bench Verified 77.6%, τ³-Telecom 91.4 poin, melampaui Devstral 2 dan Qwen3.5 397B A17B
  • Melatih ulang vision encoder sehingga mampu menangani ukuran gambar dan rasio aspek yang bervariasi
  • Dengan Vibe remote agent, sesi coding dapat dijalankan secara asinkron di cloud, menjalankan beberapa sesi secara paralel, dan menerima notifikasi saat selesai
  • Dapat dimulai dari CLI atau Le Chat, dan jika sesi lokal diteleport ke cloud maka riwayat, status, dan catatan persetujuan tetap dipindahkan apa adanya
  • Setiap sesi dijalankan dalam sandbox terisolasi, dan saat selesai akan otomatis membuat GitHub PR
  • Terintegrasi dengan alat pengembangan yang sudah ada seperti GitHub, Linear, Jira, Sentry, Slack, dan Teams
  • Cocok untuk tugas yang berulang dan terdefinisi dengan baik seperti refactoring modul, pembuatan test, upgrade dependency, investigasi CI, dan perbaikan bug
  • Mode Work di Le Chat (preview) otomatis menyelesaikan tugas multi-langkah hingga tuntas dengan memanfaatkan beberapa alat sekaligus seperti email, kalender, dan pesan
    • Connector aktif secara default, menampilkan semua pemanggilan alat dan dasar penalaran, serta meminta persetujuan eksplisit untuk tugas sensitif
  • Harga API adalah $1.5 per juta token untuk input dan $7.5 per juta token untuk output
  • Open weight dirilis dengan lisensi MIT yang dimodifikasi, dan dapat di-self-host dengan minimal 4 GPU

1 komentar

 
GN⁺ 2026-04-30
Pendapat Hacker News
  • Tidak tahu apa yang dilihat semua orang di komentar. Model ini memang tidak mengalahkan model-model lain, tetapi daya saing per ukuran jelas ada
    GLM 5.1 memang hebat, tetapi bahkan pada Q4 butuh sekitar 400GB, dan Kimi K2.5 juga bagus, tetapi pada kuantisasi Q4 hampir butuh 600GB
    Model ini bisa dijalankan pada 70GB VRAM dengan Q4, jadi mulai mendekati ranah konsumen. Mac Studio 128GB bisa dibeli di kisaran 3500 dolar
    Orang-orang yang tergila-gila pada Claude entah cuma memakai Opus atau tidak, tetapi Sonnet di paket Pro saja sudah sangat mumpuni. Model ini berjalan secara lokal, mengalahkan Sonnet terbaru, dan tidak mengenakan biaya tambahan atau mengunci akun secara sewenang-wenang hanya karena ada HERMES.md di repo
    Mistral memang belum pernah benar-benar kompetitif di frontier, tetapi mungkin itu memang bukan peran yang seharusnya kita harapkan dari Mistral. Jika ini adalah model Pareto yang memberi 80% kemampuan frontier dengan 20% biaya/ukuran, itu sudah terlihat sangat bagus

    • Bagi siapa pun yang tertarik pada LLM lokal, perlu dipahami bahwa model yang “bisa dijalankan” dan “bisa dijalankan dengan cepat” adalah dua standar yang sama sekali berbeda
      Model seperti ini memang bisa dijalankan di Mac 128GB, tetapi pertama-tama kita harus lihat apakah Q4 cukup mempertahankan kualitas. Setiap model punya sensitivitas kuantisasi yang berbeda, dan kecepatan nyata juga penting
      Untuk pekerjaan asinkron atau pekerjaan latar belakang, kecepatan pemrosesan prompt dan generasi token memang kurang penting, tetapi banyak pembeli Mac Studio akhirnya sadar dengan susah payah bahwa responsivitasnya tidak sebaik model yang di-host pada perangkat keras cloud yang layak
      Bagi kebanyakan orang yang tidak punya kebutuhan kuat untuk pemrosesan on-premise, penggunaan terbaik model ini mungkin lewat salah satu penyedia hosting OpenRouter dan membayar per token
      Hampir semua model open-weight yang keluar tahun ini disebut setara atau melampaui Sonnet, tetapi meski di benchmark jelas unggul, dalam praktik saya belum pernah benar-benar merasakan itu
    • Saya tadinya tidak tahu soal HERMES.md, tetapi yang penasaran bisa cari informasinya di sini https://github.com/anthropics/claude-code/issues/53262
    • Sebelum Februari, saya bisa terus memakai Opus High di paket Max tanpa masalah, tetapi sekarang hanya memakai Sonnet High dan itu cukup mumpuni
      Saya suka ungkapan Claude Pilled
    • Klaim bahwa ini “berjalan lokal sambil mengalahkan Sonnet terbaru” itu tidak benar
      Benchmark-nya memakai F8_E4M3, dan itu tidak bisa dijalankan di Mac mana pun
      Sonnet punya konteks 1M token, sedangkan model ini 256k, dan secara lokal pun kemungkinan besar itu tidak akan bisa dimanfaatkan dengan baik
      Sonnet juga cepat meski lewat jaringan, sementara model ini akan jauh lebih lambat
    • Jangan lupakan juga Qwen 35B A3B MoE. Model itu memberi performa lebih baik di semua metrik dibanding model ini, dengan biaya memori/komputasi yang jauh lebih kecil
      Sayang sekali model open source di luar Tiongkok tampak tertinggal setidaknya satu generasi
  • Saya selalu mendukung Mistral. Keragaman model dan negara itu penting
    Model kali ini tampak seperti fondasi yang kokoh untuk dibangun lebih lanjut, dan semoga lebih banyak peningkatan masuk di 3.6/3.7. Dari benchmark computer use, pipeline vision tampaknya masih punya ruang untuk perbaikan, tetapi itu hanya dugaan
    Melihat beberapa hasil benchmark yang berbeda, rasanya ini benar-benar model yang dilatih secara independen, bukan sekadar menyalin log frontier. Itu juga sangat penting
    Keberadaan weight architecture lain di dalam model tertentu tampak seperti keunggulan tersendiri dari sudut pandang arsitektur sistem global

  • Bagus untuk pasar kalau Mistral terus merilis model yang dapat diandalkan
    Agar pembeli punya daya tawar dalam harga dan negosiasi deployment, struktur pasar harus melampaui situasi memilih hanya salah satu dari dua perusahaan

  • Dibanding LLM hosted lain yang saya uji, sepertinya hanya Mistral yang memakai header CSP cukup ketat
    Jika diminta membuat situs web dengan library JavaScript, preview tidak tampil di Le Chat meskipun ada canvas mode
    Kadang saya cuma ingin menguji sedikit lewat web saat ada rilis baru, tetapi itu sulit kalau tidak membayar atau memakai agent harness
    Model ini benar-benar buruk dalam menggambar SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...

    • SVG mungkin bukan benchmark terbaik, tetapi ini sesuai dengan pengalaman saya memakai model Mistral lama di Mistral Vibe
      Saat saya minta bantuan menyiapkan server MCP di Vibe, model itu dengan percaya diri menjelaskan bahwa MCP adalah MineCraft Protocol lalu mulai mencari biner Minecraft di komputer saya
    • Saya tidak pernah ingin, butuh, atau berharap LLM menggambar SVG
      Semua model gagal dalam hal ini, hanya saja beberapa gagal dengan cara yang lebih lucu
  • Saya memakai mistral-medium-2508 untuk tugas transformasi teks, dan untuk kebutuhan saya hasilnya lebih baik daripada mistral-large
    Saya ingin menguji model baru ini juga, tetapi harganya jauh lebih mahal dan diposisikan sebagai model coding/agentic, jadi saya tidak yakin apakah ini memang dimaksudkan untuk menggantikan model medium sebelumnya
    mistral-medium-2508 harganya $0.4/$2 per 1M token, sedangkan mistral-medium-3.5 adalah $1.5/$7.5

    • Saya memakai Mistral Large di produksi untuk memproses potongan teks besar
      Hasilnya hampir setara Sonnet dengan biaya 90% lebih murah. Saya tidak akan pernah memakainya untuk coding, tetapi untuk tugas analisis teks ini hasilnya sangat bagus. Bahkan jauh lebih baik daripada model-model Tiongkok terbaru
      Karena itu saya menunggu rilis ini, tetapi ternyata 5 kali lebih mahal daripada Mistral Large terbaru. Saya khawatir Large murah itu akan dihentikan saat transisi rilis
  • Masalah model ini adalah DeepSeek v4 Flash berjalan cukup baik pada kuantisasi 2-bit https://github.com/antirez/llama.cpp-deepseek-v4-flash
    Di M3 Ultra, hasilnya 30 t/s untuk generasi dan 400 t/s untuk prefill, dan di MacBook Pro M3 Max 128GB juga tidak jauh lebih lambat
    Jika dipakai bersama opencode/pi, ini berfungsi sebagai coding agent yang bagus dan tool calling-nya juga sangat stabil. Kecepatan seperti ini mustahil dicapai model dense 120B
    Jadi model ini tidak hanya harus bersaing dengan model kuantisasi 4-bit dengan ukuran serupa, tetapi juga dengan DeepSeek v4 Flash yang file GGUF-nya 86GB, dan dari sudut pandang penggunaan nyata untuk inferensi lokal, tidak akan mudah untuk menang
    Ada peningkatan kecepatan yang belum di-commit juga dan akan segera di-push. Tree saat ini mungkin sedikit lebih lambat, tetapi tetap sangat layak dipakai
    Saya penggemar Mistral dan tinggal di Eropa, tetapi ada hal yang tidak saya pahami. Mistral membuka arus MoE open-weight lewat Mixtral, jadi saya tidak paham kenapa sekarang justru merilis model dense yang cukup besar
    Dengan pendekatan seperti ini, sulit bersaing secara andal baik di inferensi lokal maupun jarak jauh. Sebab modelnya tidak dekat dengan SOTA dan biaya serving-nya juga tidak murah
    Model dense memang punya tempat di kisaran puluhan miliar parameter seperti Qwen 3.6 27B, tetapi kalau sampai 5 kali lebih besar, itu tidak masuk akal kecuali benar-benar mendominasi model lain yang menuntut VRAM serupa dari sisi kemampuan

    • Tautan GitHub itu hanya mengatakan bahwa “model yang dikuantisasi dengan cara ini bekerja sangat baik dalam chat dan punya nuansa frontier-model, tetapi belum diuji secara luas”
      Ini hampir tidak ada kaitannya dengan bagaimana performanya dalam agentic workflow. Kita sudah tahu bahwa pada kuantisasi Q2, kualitas sering turun drastis
      Jika Flash terkuantisasi ini bisa mempertahankan kualitas dan performa yang layak pada panjang konteks yang lebih besar, sambil tetap menjaga bagian yang tampak seperti fitur inti seri V4, maka ini bisa menjadi pesaing yang cukup masuk akal bagi model dengan kelas weight serupa seperti Qwen 3 Coder-Next 80B
  • Rilis Mistral kali ini kembali mengingatkan saya pada kesenjangan antara frontier lab dan pemain lainnya
    Sebelum era agent, perbedaan antarmodel tidak selalu jelas, dan setiap model punya daya tariknya sendiri
    Sekarang saya tidak ingin memakai apa pun yang lebih buruk dari model frontier. Selisih kemampuannya sangat besar, dan memilih model yang lebih lemah benar-benar menimbulkan biaya produktivitas
    Saya sudah lama menyukai lab kecil seperti Mistral dan terutama Cohere, tetapi sudah cukup lama saya tidak merasa antusias dengan rilis dari dua perusahaan itu
    Meski begitu, saya memakai mistral voxtral realtime setiap hari dan itu luar biasa

    • Saya sama sekali tidak setuju. Baru setahun lalu, kesenjangan produktivitas antara model frontier dan non-frontier jauh lebih besar
      Dua tahun lalu bahkan lebih parah lagi
    • Untuk tugas non-agentic, tidak ada pemenang yang jelas secara umum antara Gemini, ChatGPT, dan Claude. Kalau hanya berdasarkan antarmuka chatbot sederhana, itu apples to oranges
      Tetapi Claude Code jauh lebih baik daripada Codex, dan Codex jelas lebih baik daripada Gemini-cli
      Dalam konteks ini, tidak mengherankan jika Claude Code jauh lebih baik daripada model non-frontier untuk coding agentic. Untuk tugas agentic yang terspesialisasi, ia juga jauh lebih baik daripada frontier model lainnya
    • Mengatakan bahwa Anda tidak ingin memakai apa pun yang lebih buruk dari model frontier itu cukup naif dan keliru
      Untuk sebagian besar tugas, termasuk pekerjaan coding yang kompleks, perbedaan antara model frontier dan model seperti GPT-4.1 hampir tidak bisa dibedakan
      Untuk benar-benar melihat bedanya, Anda harus fokus sekali pada area seperti context window, tool calling, atau aspek tertentu dari reasoning step
      Selain itu, model frontier cenderung memakai pendekatan brute force untuk menghasilkan output, sehingga biaya eksekusinya jauh lebih mahal. Bukan cuma biaya yang muncul di tagihan, tetapi juga waktu tunggu sampai keluar output apa pun
      Belum lagi kalau bicara soal model lokal
  • Mistral tampaknya bermain untuk jangka panjang di sini. Model lebih kecil, biaya lebih rendah, dan performa yang secara umum cukup bagus

  • Lumayan, tetapi tidak istimewa. Tetap saja, kabar tentang model yang bukan dari AS dan bukan dari Tiongkok tetap kabar baik

    • Mungkin ini standar dasar Eropa
  • Lucu juga bahwa sekarang 128B dianggap Medium
    Dulu ada masa ketika GPT-2 dengan 355M parameter dianggap medium

    • GPT-2 1.5B dulu dianggap terlalu berbahaya untuk dirilis
      Mungkin penilaian itu memang benar