4 poin oleh GN⁺ 2025-12-03 | 1 komentar | Bagikan ke WhatsApp
  • Seri Mistral 3 terdiri dari model kecil 3B, 8B, dan 14B serta Mistral Large 3, yang memiliki 41B parameter aktif dan 675B total parameter, sebagai keluarga model AI open source generasi berikutnya
  • Semua model dirilis dengan lisensi Apache 2.0, sehingga pengembang dan perusahaan dapat menggunakannya serta menyesuaikannya secara bebas
  • Mistral Large 3 mengadopsi arsitektur Mixture-of-Experts yang dilatih dengan 3.000 GPU NVIDIA H200, mencapai performa kelas atas dalam percakapan multibahasa dan pemahaman gambar
  • Ministral 3 dirancang untuk lingkungan edge, menawarkan performa per biaya yang sangat baik, dan model varian reasoning mencatat akurasi 85% pada AIME ‘25
  • Mistral 3 langsung tersedia di Mistral AI Studio, Hugging Face, AWS, Azure, dan platform utama lainnya, dengan tujuan memperluas ekosistem AI terbuka

Ikhtisar Mistral 3

  • Mistral 3 adalah keluarga model generasi berikutnya dari Mistral AI, terdiri dari model dense kecil (3B, 8B, 14B) dan model sparse besar Mistral Large 3
    • Mistral Large 3 memiliki arsitektur Mixture-of-Experts (MoE) dengan 41B parameter aktif dan 675B total parameter
    • Semua model dirilis dengan lisensi Apache 2.0, sehingga dapat dimanfaatkan oleh komunitas open source
  • Model tersedia dalam berbagai format kompresi, sehingga meningkatkan aksesibilitas melalui kecerdasan terdistribusi
  • Keluarga model Ministral dinilai sebagai model OSS dengan rasio performa terhadap biaya terbaik

Mistral Large 3: model papan atas berbasis bobot terbuka

  • Mistral Large 3 adalah model open weight yang dilatih dari nol menggunakan 3.000 GPU NVIDIA H200
    • Sebagai model Mixture-of-Experts pertama sejak seri Mixtral, model ini mencerminkan kemajuan teknologi pretraining Mistral
  • Setelah pelatihan, model ini menunjukkan performa setara dengan model open weight terbaik dalam kinerja prompt umum,
    dan juga mencapai hasil unggul dalam pemahaman gambar serta percakapan multibahasa non-Inggris
  • Di leaderboard LMArena, model ini menempati peringkat 2 untuk model OSS non-reasoning dan peringkat 6 untuk seluruh model OSS
  • Versi base dan instruct tuning telah dirilis, sementara versi reasoning akan segera hadir
Iklan

Kolaborasi dengan NVIDIA, vLLM, dan Red Hat

  • Mistral Large 3 bekerja sama dengan vLLM dan Red Hat agar mudah diakses oleh komunitas open source
    • Menyediakan checkpoint format NVFP4 yang dibuat dengan llm-compressor
    • Dapat dijalankan secara efisien melalui vLLM pada sistem Blackwell NVL72, 8×A100, dan 8×H100
  • Melalui kolaborasi dengan NVIDIA, model ini mendukung inferensi presisi rendah di TensorRT-LLM, SGLang, dan lainnya
    • Mengintegrasikan kernel attention dan MoE Blackwell, layanan terpisah prefill/decode, serta speculative decoding
  • Mendukung deployment yang dioptimalkan di lingkungan edge seperti DGX Spark, PC RTX, dan perangkat Jetson

Ministral 3: model cerdas untuk edge

  • Seri Ministral 3 untuk lingkungan edge dan lokal tersedia dalam tiga ukuran: 3B, 8B, dan 14B
    • Tiap model dirilis dalam tiga varian: base, instruct, dan reasoning
    • Semua varian mencakup kemampuan pemahaman gambar dan pemrosesan multibahasa
  • Sebagai model OSS dengan rasio performa terhadap biaya tertinggi,
    model instruct menunjukkan performa setara atau lebih baik daripada model pesaing sambil mengurangi jumlah token hingga sepersepuluhnya
  • Model varian reasoning unggul pada lingkungan yang berfokus pada akurasi,
    dengan model 14B mencapai akurasi 85% pada AIME ‘25

Deployment dan aksesibilitas

  • Mistral 3 langsung tersedia di platform berikut
    • Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
    • Akan segera tersedia juga di NVIDIA NIM dan AWS SageMaker
    Iklan
  • Menyediakan layanan pelatihan model kustom untuk perusahaan
    • Mendukung tugas yang spesifik domain, peningkatan performa pada dataset milik sendiri, dan deployment di lingkungan khusus

Nilai inti Mistral 3

  • Performa frontier dan akses terbuka: menghadirkan performa setingkat model tertutup dalam bentuk open source
  • Dukungan multimodal dan multibahasa: mampu memahami teks, gambar, dan logika dalam lebih dari 40 bahasa
  • Efisiensi yang dapat diskalakan: rentang 3B hingga 675B parameter untuk kebutuhan dari edge hingga enterprise
  • Kegunaan adaptif: dapat diterapkan pada berbagai alur kerja seperti coding, analisis dokumen, dan penggunaan alat

Langkah berikutnya

  • Dokumentasi model dan materi teknis tersedia di Mistral Docs dan AI Governance Hub
  • API dapat langsung digunakan melalui Hugging Face dan platform Mistral AI
  • Tersedia kanal pertanyaan untuk pelatihan kustom perusahaan dan fine-tuning
  • Partisipasi komunitas dapat dilakukan melalui Twitter/X, Discord, dan GitHub

Kesimpulan

  • Mistral 3 bertujuan memperluas ekosistem AI terbuka yang dibangun di atas transparansi, aksesibilitas, dan perkembangan bersama
  • Dengan membuka kemungkinan baru dalam reasoning, efisiensi, dan aplikasi nyata,
    Mistral 3 memantapkan posisinya sebagai model terbuka generasi berikutnya yang "mengubah pemahaman menjadi tindakan"

1 komentar

 
GN⁺ 2025-12-03
Opini Hacker News
  • Saya menggunakan large language model (LLM) di phrasing.app untuk merapikan data ke dalam format yang konsisten
    Beberapa bulan lalu saya beralih ke mistral-3-medium-0525, karena gpt-5 sering mengeluarkan output aneh dan itu cukup merepotkan
    Mistral cepat, murah, dan mengikuti instruksi format dengan akurat. Dalam penggunaan nyata, performanya jauh lebih baik daripada benchmark
    Sangat jarang (0,1%) menghasilkan sesuatu yang aneh, tetapi tetap jauh lebih stabil dibanding tingkat kegagalan 15% pada gpt-5
    Saya juga berencana segera menguji model-model barunya dan membagikan hasilnya

    • Dulu saya berlangganan beberapa chatbot, tetapi sekarang saya memakai Grok, ChatGPT, Gemini, Deepseek, Mistral secara bergantian
      Untuk API, keunggulan terbesarnya adalah berfungsi sesuai yang diharapkan
      Sekarang saya memilih model yang dibutuhkan lewat Openrouter
      Menurut saya, alasan chatbot berbasis iklan makin banyak belakangan ini adalah karena, berbeda dari benchmark, pengguna nyata tidak terlalu merasakan perbedaannya sehingga membatalkan langganan berbayar
      Hari ini pun OpenAI menawarkan uji coba gratis satu bulan, seolah-olah lupa saya sudah memakainya dua bulan lalu
    • Saya juga punya pengalaman serupa. Model Mistral memang bukan yang terbaik di benchmark, tetapi untuk tugas sederhana seperti klasifikasi atau peringkasan, model ini paling efisien
      Terutama jika memakai mistral-small lewat batch API, rasio biaya terhadap performanya sangat bagus
    • Saya merasa ada batasan dalam cara mengevaluasi LLM lewat benchmark
      Overfitting bisa saja menurunkan kegunaan nyata, dan Chatbot Arena pun awalnya muncul karena kebutuhan evaluasi berbasis penggunaan nyata seperti ini
      Tetapi bahkan itu juga dikritik karena terlalu condong pada hal-hal seperti menyesuaikan format atau sifat menjilat
      Pada akhirnya, saya rasa kita membutuhkan lebih banyak model yang dioptimalkan per tugas
    • Terima kasih sudah membagikan kasus penggunaan model Mistral
      Hanya saja, frasa “Hand-crafted by humans” di phrasing.app terasa agak ironis, mengingat sebenarnya Anda memakai LLM canggih
    • Saya penasaran apakah maksudnya gpt-5 menghasilkan output aneh dengan probabilitas 15%
      Mungkinkah Anda membandingkan tingkat kesalahan Mistral dengan tingkat kegagalan gpt-5.1 pada tugas yang kompleks?
      Dan saya juga penasaran apakah Mistral punya Tool Use model. Akan menyenangkan jika ada model baru untuk coding
  • Menarik bahwa model besar barunya menggunakan arsitektur DeepseekV2
    Hal itu tidak disebutkan di halaman resminya, tetapi menurut saya bagus jika model open source mengadopsi struktur terbaru
    K2 juga mengambil pendekatan serupa, dan jika melihat kode aslinya (mistral_large_3.py), model itu berbasis DeepseekV3
    Seperti ungkapan “sains selalu berkembang di atas keterbukaan dan berbagi”, transparansi seperti ini menyenangkan untuk dilihat
    Sekarang saya akan mencoba model 14B di rumah, dan saya juga menantikan tambahan fitur Vision

    • Pada akhirnya, tampaknya mereka menghabiskan R&D untuk menyalin Deepseek, dan tidak terlalu serius menggarap satu-satunya fitur tambahan, yaitu Vision
      Bahkan di halaman Hugging Face juga tertulis bahwa Mistral Large 3 tertinggal dari model yang memang dikhususkan untuk Vision dalam tugas multimodal
    • Sebenarnya, belakangan ini saya merasa perbedaan arsitektur tidak sepenting data, tuning, dan pipeline dalam menentukan performa model
    • Rasanya standar ganda jika orang menuntut semuanya dibuka, tetapi begitu sesuatu dibuka lalu malah mencelanya saat dipakai
  • Mengejutkan bahwa model Vision 3B bisa dijalankan langsung di browser
    Setelah mengunduh model 3GB, model itu bisa langsung dijalankan, dan ada demo Hugging Face
    Tulisan Simon Willison juga layak dibaca

    • Dengan teknologi seperti ini, sepertinya kita bisa membuat alat aksesibilitas seperti alat deskripsi video real-time untuk penyandang tunanetra
      Saya membayangkan fitur yang tidak hanya menjelaskan suara, tetapi juga tindakan di dalam video
  • Senang melihat Mistral dari Eropa kembali aktif setelah sekian lama
    Kembalinya mereka ke open source dengan lisensi Apache 2.0 juga merupakan hal yang positif
    Selama ini mereka sempat menjadi yang terbaik untuk model kecil di GPU konsumen, dan saya berharap Ministral 14B kali ini benar-benar tampil sebaik benchmark-nya

    • Sebenarnya, saya rasa pencapaian seperti ini terjadi berkat pendanaan VC Amerika
      Jika hanya mengandalkan Eropa, kemungkinan besar akan sulit mendapatkan dana pelatihan AI sebesar ini
  • Model barunya keren, tetapi agak disayangkan karena tidak ada perbandingan dengan model SOTA seperti OpenAI·Google·Anthropic
    Karena itu, sulit memahami posisinya secara keseluruhan

    • Jika melihat hasil LMArena, Mistral Large 3 berada di peringkat 28, dan selisih nilainya dengan model teratas tidak terlalu besar
      Model terbaik mendapat 1491 poin, sedangkan Mistral 1418, jadi jarak performanya kecil
    • Namun tampaknya perusahaan menghindari perbandingan semacam ini karena bisa terkena regulasi iklan
    • Bagaimanapun juga, Mistral mungkin tahu bahwa mereka sulit bersaing dengan model tertutup
      Fakta bahwa mereka juga tidak membandingkannya dengan GPT-OSS terlihat sebagai langkah yang agak konservatif
    • Menurut saya, fakta bahwa mereka tidak mempublikasikan hasil perbandingan itu sendiri sudah cukup banyak mengatakan sesuatu
  • Saya mendukung upaya Eropa

    • Tetapi jangan lupa bahwa bahkan di dalam Eropa sendiri ada banyak riset AI aktif, seperti DeepMind di London
    • Saya ingin menyeimbangkannya dengan lelucon bahwa “Windows 11 adalah mahakarya terbaik Amerika”
  • Jujur saja, rasanya Deepseek 3.2 sudah menyita seluruh perhatian kemarin
    Agak disayangkan karena perbandingan kali ini masih berdasarkan Deepseek 3.1
    Menurut berita resmi, versi 3.2 mengalami peningkatan yang besar

  • Saya masih tidak benar-benar memahami insentif untuk merilis bobot model yang bagus
    Bisa jadi OpenAI merilis model seperti gpt-oss untuk benchmark demi tujuan PR,
    dan perusahaan Tiongkok tampaknya memakai strategi serupa untuk menggoyang posisi big tech Amerika
    Saya ragu apakah ke depan akan terus muncul model open weight yang cukup bagus

    • Karena sulit menghasilkan uang dari model tertutup
      Open weight membuka saluran pendapatan sekunder seperti layanan fine-tuning untuk perusahaan
      Transparansi, kontrol, privasi, dan penghematan biaya penting bagi perusahaan
      Karena itu, ekosistem terbuka seperti ini dalam jangka panjang berpotensi menggerus model tertutup
      Untuk layanan terkait, lihat Mistral Custom Model Training
    • gpt-oss bukan hanya untuk benchmark, melainkan memang sangat unggul dalam pemecahan soal matematika
      Model ini juga tetap bertahan di papan atas kompetisi AIME3 di Kaggle
    • Saat ini model bisnisnya masih belum jelas, jadi perusahaan AI lebih fokus mengamankan pendanaan VC daripada membuat model terbaik
      Jika mereka merilis model terbuka, valuasi perusahaan melonjak sehingga lebih menguntungkan untuk memperoleh GPU
      Namun jika pada akhirnya tidak pernah muncul model bisnis yang berkelanjutan, itu akan menjadi masalah besar
    • gpt-oss sangat unggul dalam tool calling dan secara umum stabil
    • Google memberi kesan kuat seolah-olah memanipulasi benchmark
      Gemini memang unggul di benchmark, tetapi kegunaan nyatanya terasa lebih buruk
  • Saya membandingkan skor benchmark gabungan dari beberapa model
    Gemini 3.0 Pro berada di posisi pertama dengan 84,8, DeepSeek 3.2 di 83,6, dan GPT-5.1 di 69,2
    Mistral Large 3 rendah di 41,9, tetapi model 14B·8B·3B berada di level SOTA,
    dan tidak punya masalah sensor seperti Qwen3

    • Saya penasaran dengan selisih besar antara Gemini 3 dan GPT-5.1/Opus 4.5
      Saya ingin tahu di bidang apa Gemini bisa sekuat itu
  • Di benchmark Gemini memang yang terbaik, tetapi dalam praktiknya terasa lebih buruk daripada ChatGPT atau Claude
    Model itu lebih sering berbicara ngawur, dan Google tampaknya hanya menaikkan skor benchmark
    Saya berharap open source seperti Mistral bisa menggerus pasar seperti ini

    • Tujuan open-weight LLM bukanlah untuk mengalahkan model tertutup
      Ia berperan sebagai penyeimbang ekosistem, dan punya makna dalam mencegah monopoli
    • Saya pernah memakai Gemini sambil belajar membangun klaster k8s on-prem, dan untuk topik seperti itu model tersebut sangat akurat
      Mungkin karena bidang itu tercakup dengan baik dalam data latihnya
    • Berdasarkan pertanyaan yang saya ajukan, Gemini 3 memiliki halusinasi yang lebih sedikit daripada GPT-5.1
    • Secara pribadi, Gemini adalah yang paling mengecewakan, dan promosinya yang berlebihan terasa tidak alami
    • Untuk tugas non-coding, Gemini bisa lebih mudah memberikan dasar rujukan berkat integrasi Google Search