Mistral OCR 3 Dirilis

(mistral.ai)

2 poin oleh GN⁺ 2025-12-20 | 1 komentar | Bagikan ke WhatsApp

Model OCR generasi berikutnya yang meningkatkan akurasi dan efisiensi pemrosesan dokumen secara bersamaan, dengan performa pengenalan tinggi pada berbagai jenis dokumen
Mencatat peningkatan performa keseluruhan sebesar 74% dibanding versi sebelumnya, dengan hasil unggul pada tulisan tangan, formulir, tabel kompleks, dan dokumen hasil pemindaian
Mendukung rekonstruksi tabel berbasis HTML dan output markdown sehingga informasi struktural dokumen juga dapat dipertahankan
$2 per 1.000 halaman, dengan diskon 50% untuk pemrosesan massal, menghadirkan efisiensi biaya
Teknologi OCR yang dapat dimanfaatkan secara luas, mulai dari pipeline dokumen enterprise berskala besar hingga workflow dokumen interaktif, dan muncul sebagai infrastruktur inti untuk pemanfaatan data berbasis AI generatif

Kinerja dan fitur utama

Mistral OCR 3 melakukan ekstraksi teks dan gambar tertanam dari berbagai dokumen dengan presisi tinggi
- Mendukung output format markdown dan fitur rekonstruksi tabel HTML, sehingga dapat mengenali bukan hanya isi dokumen tetapi juga strukturnya
- Ukuran model yang kecil memungkinkan layanan ini ditawarkan dengan biaya lebih rendah dibanding solusi pesaing, yaitu $2 per 1.000 halaman, atau $1 saat menggunakan Batch API
Model mistral-ocr-2512 dapat diintegrasikan melalui API, atau PDF dan gambar dapat dikonversi menjadi teks atau JSON terstruktur melalui UI Document AI Playground

Peningkatan performa dan benchmark

Dalam benchmark internal, model ini mencatat tingkat kemenangan 74% dibanding Mistral OCR 2
- Pengujian dilakukan berdasarkan kasus bisnis nyata dari pelanggan, dan akurasi dievaluasi menggunakan fuzzy-match metric
Mencapai akurasi yang melampaui solusi pemrosesan dokumen enterprise dan OCR berbasis AI

Area peningkatan utama

Pengenalan tulisan tangan: menafsirkan tulisan tangan, anotasi campuran, dan tulisan tangan di atas formulir cetak dengan akurat
Pemrosesan formulir: peningkatan pengenalan kotak, label, input tulisan tangan, dan layout kompleks
Dokumen pindai dan kompleks: memiliki ketahanan tinggi terhadap artefak kompresi, distorsi, resolusi rendah, dan noise latar belakang
Struktur tabel kompleks: mereproduksi tabel secara lengkap menggunakan tag HTML (colspan/rowspan), termasuk header, sel gabungan, serta hierarki multi-baris dan multi-kolom
Peningkatan performa menyeluruh dibanding Mistral OCR 2 di semua bahasa dan bentuk dokumen

Contoh penggunaan dan bidang aplikasi

Cocok untuk pipeline dokumen enterprise berskala besar maupun workflow dokumen interaktif
- Mendukung konversi ke markdown setelah ekstraksi teks dan gambar, parsing otomatis formulir dan invoice, pembangunan pipeline pemahaman dokumen, serta digitalisasi tulisan tangan dan dokumen sejarah
Pelanggan awal menggunakannya untuk mengubah invoice menjadi field terstruktur, mendigitalisasi arsip perusahaan, mengekstrak teks dari laporan teknis dan ilmiah, serta meningkatkan pencarian enterprise
Tim Law dari IDC menyatakan, “OCR adalah teknologi fondasi bagi AI generatif dan AI agen, dan kemampuan ekstraksi teks yang sangat akurat dengan biaya rendah menentukan daya saing dalam pemanfaatan data”

Pendekatan akses dan kompatibilitas

Dapat langsung digunakan melalui API atau antarmuka Document AI Playground
Sepenuhnya kompatibel dengan Mistral OCR 2, sehingga mudah di-upgrade dari sistem yang sudah ada
Dokumentasi rinci tersedia di mistral.ai/docs

1 komentar

GN⁺ 2025-12-20

Komentar Hacker News

Setelah melihat video ini di Twitter, saya jadi bertanya-tanya kenapa Mistral tidak membandingkannya dengan model SoTA terbaru
Akan bagus jika dibandingkan dengan model seperti Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, dan PaddleOCR
- Dari sudut pandang seseorang yang sudah banyak mengerjakan ekstraksi dokumen, nada tweet itu memang agak mengganggu, tapi isi pesannya sendiri benar
  Mistral sedang membandingkannya dengan layanan computer vision biasa, bukan model berbasis VLM
  Yang pertama punya pemahaman dokumen yang lebih baik, sedangkan yang kedua memberikan bounding box yang akurat
  Pola kegagalannya juga berbeda — VLM bisa salah membaca satu kalimat penuh, sementara model vision biasanya hanya salah ketik pada level kata
- Saya sempat klik tautannya, dan rasanya suasana Twitter sekarang sudah berubah jadi jauh lebih aneh dibanding dulu
- Saya juga ingin melihat perbandingan dengan Qwen 3 VL 235B-A22B. Dalam pengalaman saya, model itu jauh lebih baik daripada MinerU
Dalam 3 bulan terakhir, muncul sangat banyak model OCR open-source
Khususnya model dengan kurang dari 1B parameter yang juga berjalan baik di edge device
Akan bagus kalau dibandingkan dengan model seperti paddleOCR-VL, olmOCR-2, chandra, dan dots.ocr
Sayangnya hampir tidak ada leaderboard atau arena untuk OCR atau CV
- Sekitar sebulan lalu ada proyek bernama ocrarena.ai
  Modelnya dibandingkan dengan format duel seperti llmarena, tapi Mistral masih belum diperbarui di sana
  Saat ini Gemini ada di peringkat atas
- Kelebihan MistralOCR adalah kebijakan harga yang sederhana — $1 per 1.000 halaman, dengan API server-hosted tersedia
  OCR lain berbasis token sehingga sulit menghitung biaya sebenarnya
  Misalnya Gemini 3.0 flash terlihat punya harga yang mirip, tetapi dalam satuan token biaya nyatanya sekitar 3 kali lebih mahal
- Saya sempat mencoba memasang paddleOCR, tetapi menyerah setelah dependensi PyTorch 12GB menimbulkan konflik versi
  Lalu saya memberi Claude akses root untuk memasangnya sebagai gantinya, dan dia tampaknya jauh lebih menikmati proses itu daripada saya
  Saya juga punya pengalaman serupa saat memasang open web UI, dan akhirnya saya menulis sendiri hanya fitur yang saya butuhkan dalam 100 baris HTML
  Saya berharap OCR juga bisa dibuat sesederhana itu
- codesota.com/ocr juga layak dilihat
Mistral OCR 3 disebut cocok untuk pipeline perusahaan berskala besar, tetapi dengan akurasi 79% rasanya sulit dipercaya
Dari sudut pandang pekerjaan jurnal ilmiah, kesalahan pengenalan seperti 2.9+0.5 dan 29+0.5 bisa sangat fatal
Pada akhirnya verifikasi manusia tetap dibutuhkan di setiap tahap
- Untuk kasus seperti ini, datalab.to lumayan bagus
- 79% itu tampaknya bukan akurasi, melainkan angka win rate
Saya sedang mengerjakan proyek mengubah kamus Shipibo (bahasa pribumi Peru)-Spanyol menjadi kamus Shipibo-Inggris
Kualitas scan PDF-nya buruk, dan OCR sering gagal karena layout dua kolom serta header/footer
Pekerjaannya rumit karena saya harus memisahkan contoh kalimat Shipibo dan definisi bahasa Spanyol lalu menerjemahkannya hanya ke bahasa Inggris
Setiap kali ada kabar OCR/LLM baru saya mencobanya, tetapi selalu berakhir mengecewakan
- Saya penasaran apakah ada yang tertarik pada penelitian tradisi Ayahuasca
  Dalam budaya Shipibo, bukan orang biasa melainkan maestra yang meminum Ayahuasca untuk mendiagnosis penyakit
  Untuk tiap tanaman ada dieta (pantangan makan/puasa ritual), dengan pembatasan seperti tidak memakai sabun, tidak berhubungan seksual, dan tidak mengonsumsi garam
  Secara tradisional ini bisa berlangsung lebih dari setahun, meski kini sering dipersingkat menjadi beberapa minggu
  Saya terkesan melihat betapa dalamnya mereka meneliti pengobatan berbasis tanaman
Saya ingin mengubah buku teks matematika menjadi markdown dengan rumus LaTeX, tetapi belum ada model OCR yang benar-benar memuaskan
Saya berencana mengujinya langsung di OCR playground milik Mistral
- Saya telah memproses ribuan dokumen dengan model Gemini Pro 3 vision, dan sejauh ini itu jauh lebih akurat daripada OCR mana pun yang pernah saya pakai
  Rumus pun dikonversi ke LaTeX dengan sempurna
- Tolong bagikan hasilnya nanti
Saya sedang mencari terjemahan dalam gambar (in-place translation)
Mistral OCR3 berfokus pada ekstraksi data, jadi tidak cocok untuk kebutuhan saya
Saya ingin teks pada artbook asing diterjemahkan dan ditampilkan langsung di atas gambar, tetapi layanan berbayar yang sudah ada gagal karena penempatan teks yang tidak standar
Saat ini saya menerjemahkannya dengan menyorot layar memakai Google Lens, tetapi kurang nyaman
Lens bawaan Chrome juga masih butuh pemilihan manual, jadi belum sepenuhnya otomatis
Ada yang tahu kabar perkembangan fitur seperti ini?
- Jika tidak masalah berbayar, DEEPL atau fitur terjemahan dokumen di Word cukup lumayan dipakai
Belakangan ini Mistral terasa hanya mengejar pinggiran fitur AI
Mereka tampak tertinggal dibanding OAI, Google, dan Anthropic, dan investasi tingkat UE juga kelihatannya kurang
- Fitur praktis seperti pemrosesan formulir justru adalah hal yang benar-benar dibutuhkan orang
  Jauh lebih bernilai daripada membuat meme
- Menyalin mentah-mentah apa yang dilakukan perusahaan terdepan itu berisiko
  Karena model bisnis belum benar-benar mapan, masuk akal jika Mistral fokus pada kualitas model inti
  Menjaga talenta di UE sambil membuat model yang cukup bagus adalah target yang realistis
- UE sedang sangat ‘berinvestasi’ pada Mistral — separuhnya lewat pajak, sisanya dipakai untuk membahas regulasi
- Regulasi UE menghambat langkah mereka, jadi pada akhirnya ada kemungkinan besar mereka akan diakuisisi perusahaan AS
- Meski begitu, menurut saya ini tetap lebih baik daripada sekadar meniru persis apa yang dilakukan orang lain
Saya melihat penilaian bahwa performa Mistral kalah dari berbagai OCR open-source seperti Paddle, MinerU, MonkeyOCR, dan lainnya
Lihat codesota.com/ocr
Saya sedang menguji Mistral sebagai pengganti MathPix
Skrip Python ini adalah prototipe yang mengambil gambar clipboard setelah snipping di Windows, mengirimkannya ke Mistral, lalu secara otomatis menempelkan hasil Markdown
Masalah terbesar Mistral adalah tidak merespons pertanyaan pelanggan
Bersembunyi di balik “hubungi untuk harga” membuatnya tidak ada artinya meskipun lebih baik daripada SoTA
- Saya juga sangat tidak suka tatap muka dengan sales
  Saya lebih memilih layanan yang mungkin lebih mahal dan performanya lebih rendah asalkan tidak perlu melewati proses seperti itu

Mistral OCR 3 Dirilis

Kinerja dan fitur utama

Peningkatan performa dan benchmark

Area peningkatan utama

Contoh penggunaan dan bidang aplikasi

Pendekatan akses dan kompatibilitas

Bacaan terkait

1 komentar

Komentar Hacker News