3 poin oleh GN⁺ 2025-06-11 | 1 komentar | Bagikan ke WhatsApp
  • Magistral adalah model penalaran (reasoning) pertama yang dirilis Mistral AI, dengan fokus pada spesialisasi domain, transparansi, dan penalaran multibahasa
  • Dirilis dalam dua varian: Magistral Small (24B parameter) yang open source dan Magistral Medium versi enterprise untuk bisnis
  • Menyediakan penalaran multibahasa berbasis Chain of Thought, dengan proses logika bertahap yang ditampilkan secara transparan dalam bahasa pengguna
  • Pada AIME2024, Magistral Medium mencatat 73.6% (tertinggi 90%), dan Small 70.7% (tertinggi 83.3%)
  • Mendukung pengembangan logika bertahap yang akurat serta kecepatan respons 10 kali lebih cepat untuk berbagai bahasa dan industri seperti sektor teregulasi termasuk hukum, keuangan, dan layanan kesehatan, data engineering, pengembangan perangkat lunak, serta konten kreatif

Magistral — Mistral AI mengumumkan model penalaran pertamanya

  • Magistral adalah model reasoning yang berfokus pada kemampuan memecahkan masalah dunia nyata dan peningkatan berbasis umpan balik
  • Magistral Small adalah versi open source 24B parameter, sementara Magistral Medium adalah versi enterprise yang lebih kuat, dirilis dalam dua varian
  • Metrik performa:
    • Magistral Medium: AIME2024 73.6%, mencapai 90% berdasarkan voting mayoritas
    • Magistral Small: masing-masing 70.7%, 83.3%
  • Menerapkan penalaran Chain of Thought berbasis bahasa dan aksara global, memungkinkan alur berpikir setara bahasa ibu
  • Cocok untuk berbagai tugas seperti perhitungan terstruktur, logika pemrograman, decision tree, dan sistem berbasis aturan
  • Dengan fitur Think mode dan Flash Answers di Le Chat, kecepatan respons meningkat 10 kali dibanding pesaing
  • Makalah resminya memuat evaluasi menyeluruh atas algoritme, infrastruktur pelatihan, teknik reinforcement learning, dan insight pelatihan

Detail model dan teknologi

  • Proses penalaran yang transparan:
    • Magistral dioptimalkan untuk logika multi-tahap, sehingga pengguna dapat memeriksa dan menelusuri proses penalaran dalam bahasa mereka sendiri
    • Berbeda dari model umum, kemampuan interpretabilitas dan verifikasi diperkuat
    • Menargetkan pembaruan model berkelanjutan dan peningkatan yang cepat
  • Penalaran multibahasa: mempertahankan akurasi dan logika yang tinggi dalam bahasa Inggris, Prancis, Spanyol, Jerman, Italia, Arab, Rusia, Mandarin, dan lainnya
  • Kecepatan respons:
    • Magistral Medium mendukung penalaran dan umpan balik real-time melalui fitur Flash Answers di Le Chat, dengan kecepatan pemrosesan token 10 kali lebih tinggi dibanding pesaing
    • Menunjukkan keunggulan yang menonjol dari sisi kecepatan dibanding model pesaing utama seperti ChatGPT

Open source dan partisipasi komunitas

  • Magistral Small dirilis dengan lisensi Apache 2.0
  • Pengguna dapat menganalisis, memodifikasi, dan menyusun ulang struktur serta metode penalarannya secara langsung
  • Model open source sebelumnya telah dimanfaatkan dalam proyek riset inovatif seperti ether0 dan DeepHermes 3

Beragam contoh penerapan

  • Magistral dioptimalkan untuk bidang seperti hukum, keuangan, pengembangan perangkat lunak, dan storytelling, di mana penalaran bertahap yang presisi dan transparansi sangat penting
  • Strategi dan operasi bisnis

    • Dapat digunakan untuk perencanaan strategi, penilaian risiko, pengambilan keputusan berbasis data, serta perhitungan solusi optimal di bawah kendala yang kompleks
  • Industri teregulasi dan sektor publik

    • Profesional di bidang hukum, keuangan, layanan kesehatan, dan pemerintahan dapat melacak jalur penalaran logis serta memastikan auditabilitas
    • Mendukung auditabilitas hasil dan pemenuhan kepatuhan regulasi
  • Sistem, perangkat lunak, dan data engineering

    • Dibanding LLM non-reasoning, kualitas dukungan untuk pemrograman, perancangan proyek, arsitektur backend, dan data engineering meningkat
    • Efektif untuk tugas multi-langkah seperti integrasi alat eksternal dan API
  • Pembuatan konten dan komunikasi

    • Magistral juga menunjukkan hasil unggul dalam penulisan kreatif dan storytelling
    • Tidak hanya menghasilkan teks yang konsisten, tetapi juga mampu menciptakan ide-ide yang unik dan jenaka

Cara penggunaan dan jalur distribusi

  • Versi Small dapat diunduh dan di-deploy sendiri
  • Versi Medium dapat langsung digunakan di Le Chat (web), API, dan Amazon SageMaker
  • Dukungan tambahan untuk IBM WatsonX, Azure AI, dan Google Cloud Marketplace akan hadir segera
  • Untuk penyesuaian enterprise dan penerapan on-premises, diperlukan pertanyaan terpisah

1 komentar

 
GN⁺ 2025-06-11
Komentar Hacker News
  • Saya membagikan pengalaman membuat sendiri lalu mengunggah versi GGUF dari model Magistral Small ke HuggingFace. Bisa dijalankan di ollama dengan perintah ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL, dan untuk llama.cpp sangat disarankan memakai opsi seperti --jinja, --temp 0.7, --top-p 0.95. Disarankan juga menaikkan panjang konteks Ollama ke 8192 atau lebih, dan panduan tambahan tersedia di dokumentasi resmi
    • Perbandingan benchmark terkait DeepSeek cukup menarik. Makalah Magistral yang ada membandingkannya dengan DeepSeek-V3 (Desember 2023) dan DeepSeek-R1 (Januari 2024), tetapi rasanya target perbandingan yang lebih adil adalah DeepSeek-R1-0528 versi terbaru. Sebagai contoh, R1 mencetak 79.8 pada AIME 2024 sedangkan R1-0528 mencapai 91.4, dan pada AIME 2025 angkanya juga berbeda jauh, masing-masing 70 dan 87.5. Benchmark DeepSeek terbaru bisa dilihat di sini
    • Makalah Magistral (PDF) dinilai benar-benar mengesankan. Dalam makalah itu, saat membahas GRPO, diperkenalkan berbagai perbaikan seperti 1) menghapus KL Divergence 2) normalisasi berdasarkan panjang total 3) normalisasi advantage minibatch 4) pelonggaran trust region
    • Meski ada risiko verifikasi usia, model Unsloth benar-benar “gila bagusnya”. Ada ungkapan puas karena modelnya selalu berjalan baik, sekaligus pertanyaan tentang apa yang dipakai secara default di llama.cpp jika tidak ada "jinja"
    • Dengan nuansa “jangan terlalu dipikirkan”, ada tautan gist yang dibagikan sebagai referensi
  • Jika hanya melihat hasil benchmark, terlihat bahwa model Magistral Small maupun Medium tertinggal dari DeepSeek-R1 versi terbaru di semua pengujian one-shot. Artikelnya bahkan tidak menyebut DeepSeek-R1 terbaru sama sekali, dan biayanya juga lebih dari dua kali lebih mahal, sehingga muncul kesan bahwa perusahaan AI terbaik Eropa pun saat ini kesulitan mengejar tren teknologi terkini
    • Karena DeepSeek R1 awal mencapai performa luar biasa dengan komputasi yang sangat sedikit, cukup mengejutkan bahwa R1 baru tidak mendominasi o3, 2.5 Pro, dan lainnya di semua benchmark. Magistral Small (24B) mendapat 70.7% di AIME 2024, sedangkan R1 distill (32B) mendapat 72.6%. Dengan majority voting@64, Magistral Small naik hingga 83.3% dan melampaui performa full R1 secara keseluruhan. Keunggulannya juga dijelaskan dari sisi aksesibilitas karena model 24B bisa dijalankan di GPU gaming biasa. Ditambahkan juga tautan model Distill
    • Di tengah persaingan model AI yang sangat ketat, muncul pandangan bahwa secara engineering tetap sangat berarti jika model hadir 6–12 bulan lebih lambat dari yang terbaru tetapi tidak menelan biaya astronomis. Tentu logika pelanggan yang hanya ingin memakai yang “terbaik” dari sudut pangsa pasar bisa dipahami, tetapi dipertanyakan juga seberapa penting pangsa pasar bagi bisnis yang selamanya hanya merugi
    • Jika melihat struktur investor Mistral, secara praktis perusahaan itu bukan benar-benar perusahaan Eropa, karena modal Amerika adalah pemilik utamanya. Detailnya bisa dilihat di tautan informasi investor
    • Walaupun daya saingnya mungkin agak tertinggal, ada pendapat bahwa setiap kawasan secara strategis perlu memiliki model sendiri yang pelatihannya bisa dikendalikan. Namun jika kesenjangan teknologinya terlalu besar, ada risiko pengguna akan menganggapnya tidak berguna
    • Ada sorotan bahwa Mistral telah membangun pipeline training yang sepenuhnya “mandiri”. Pesaing seperti Deepseek diduga kemungkinan berlatih menggunakan data dari GPT-4, o1, dan sejenisnya
  • Catatan tentang penerapan langsung model Magistral melalui Ollama, API, dan plugin llm-mistral dirangkum di tautan catatan
    • Kepada Simon, ada pertanyaan tentang apa perbedaan nyata dari “dua pelikan yang sedang bersepeda”. Dugaan yang muncul adalah versi kecil dijalankan secara lokal, sementara versi besar yang lebih kuat dijalankan melalui API
  • Ada pengalaman penggunaan nyata saat model Mistral OCR sedang gencar dipromosikan, ketika harus melakukan OCR pada PDF 600 halaman. Seluruhnya berupa teks monospace, tetapi 80% hasil OCR dikenali sebagai gambar dan nyaris hanya mengeluarkan spasi kosong, jadi performanya jauh lebih buruk daripada tesseract. Sebulan kemudian, setelah hasil yang buruk tetap ditagihkan, akunnya dihapus. Produk baru kali ini mungkin lebih baik dari sebelumnya, tetapi ekspektasi terhadap pemasaran Mistral yang berlebihan sudah menurun
  • Ada kebingungan karena pemilihan sampel benchmark terasa terlalu acak dan terbatas. Magistral Medium hanya dibandingkan dengan Deepseek V3, R1, dan Mistral Medium 3, dan sulit dipahami mengapa Magistral Small, Alibaba Qwen, atau versi mini o3/o4 tidak dimasukkan
  • Untuk menguji penalaran logis dan pengetahuan umum setingkat Wikipedia, seseorang bertanya kepada Mistral AI: “bagi warga Brasil yang pergi dari São Paulo ke Paris transit di Lisboa, di mana pemeriksaan imigrasi dilakukan?” Mistral AI menjawab “hanya di Paris”, lalu setelah diminta merujuk artikel Wikipedia, jawabannya diperbaiki menjadi “di Lisboa”. Meta AI (Llama 4) malah menjawab bahwa keduanya tidak perlu, sehingga akurasinya diragukan. Ada rasa penasaran dengan jawaban LLM lain
    • Ada pendapat bahwa pertanyaan itu pada dasarnya adalah pertanyaan jebakan. Faktanya, bukan hanya di Lisboa sebagai titik masuk Schengen, tetapi kemungkinan juga ada pemeriksaan di São Paulo sebagai titik keberangkatan Brasil/Mercosur
    • Jawaban dari Gemini (2.5 Flash) dinilai mengesankan. Alur utamanya: warga negara Brasil bebas visa Schengen hingga 90 hari. Pemeriksaan masuk dilakukan di Lisboa, lalu penerbangan ke Paris diperlakukan sebagai penerbangan domestik dalam Schengen sehingga tidak ada pemeriksaan tambahan di Paris. ETIAS dijadwalkan berlaku pada 2026, tetapi itu adalah izin perjalanan elektronik prakeberangkatan dan tidak memengaruhi lokasi pemeriksaan
    • Ada juga yang menunjukkan bahwa penanya sendiri tampak bingung dengan jawabannya, dan dari sudut pandang yang menarik, tes semacam ini memudahkan perbandingan seberapa meyakinkan jawaban yang diberikan LLM
    • Masih dibuka kemungkinan sementara bahwa Llama 4 justru bisa benar, karena ada perjanjian bebas visa khusus antara Brasil dan Portugal
  • Ada harapan agar Qwen3 dimasukkan ke dalam chart benchmark. Bahkan Qwen3-4B saja performanya hampir setara dengan Magistral-22B, dan Qwen3-30B-A3B menunjukkan hasil yang jauh lebih unggul
    • Model 30-A3B dinilai benar-benar luar biasa. Jika dijalankan secara lokal tanpa biaya API, performanya bahkan lebih baik dibanding model tertutup dari 1–2 tahun lalu. Khusus untuk pekerjaan pemrograman, model ini dinilai lebih tinggi daripada gpt-4o
    • Ada pertanyaan apakah ada situs otomatis untuk berbagai benchmark model. Penanya sudah menguji sendiri, dan menurutnya Qwen3-30B-A3B masih yang terbaik dalam kondisi parameter/memori yang mirip
    • Qwen3 dianggap sebagai model reasoning paling mengesankan yang pernah dievaluasi sejauh ini
    • Mistral dinilai selama ini selalu kalah karena model lain lebih baik, sehingga kegunaan nyatanya rendah. Satu-satunya makna lebih karena statusnya sebagai produk Eropa. Terlepas dari performanya, nama Mistral diperkirakan akan terus sering dibicarakan
  • Ada kisah etimologi yang menarik. “mistral” dan “magistral” sama-sama berasal dari makna “masterly”. Mistral awalnya berasal dari bahasa Oksitan, dan kini dalam bahasa Inggris terutama dipakai untuk menyebut angin Mediterania. Magistral adalah bentuk adjektiva dari “magister”. Kalau menemukan lebih banyak kata terkait dan mengamankan domainnya, mungkin bisa jadi peluang cuan
  • Ada rasa penasaran berapa banyak lagi model reasoning open-weight yang ada. Juga dibayangkan apakah beberapa model bisa dijalankan bersamaan untuk satu masalah. Menarik juga bahwa versi Small dirilis sementara Medium tetap sebagai layanan berbayar. Muncul pertanyaan apakah Medium bisa dipakai semacam rantai dari beberapa eksekusi Small
    • Menurut pendapat yang muncul, Qwen 3, DeepSeek R1, dan Phi-4 Reasoning saat ini adalah model reasoning open-weight terbaik
    • Namun pada praktiknya, yang benar-benar ada hanya keluarga DeepSeek, dan model distill bisa dimanfaatkan agar dapat berjalan di perangkat keras konsumen biasa
  • Ada pertanyaan apakah penggunaan en-dash yang berlebihan di copy pemasaran mencerminkan gaya keluaran model yang dihasilkan juga. Jika iya, itu dianggap perlu diperbaiki
    • Dalam salah satu kalimat promosi, disebut bahwa Magistral adalah pendamping hebat untuk pekerjaan kreatif, dan bila diperlukan bahkan bisa menghasilkan teks yang “aneh secara unik”
    • Disebutkan secara angka bahwa ada 49 en-dash dan 59 koma, sehingga proporsinya terlihat sangat tinggi
    • Analisisnya adalah bahwa itu hanya gaya pemasaran Mistral, dan rasio penggunaan en-dash seperti itu tidak diamati pada keluaran model sebenarnya
    • Ada pengalaman bahwa di LibreOffice, mengetik "-" lalu menekan spasi sering mengubahnya menjadi en-dash, sehingga demi menghindari salah paham, perubahan itu sengaja dikoreksi
    • Ada komentar bercanda bahwa di kalangan hukum justru ada budaya yang menyukai en-dash