Mistral OCR 3 Dirilis
(mistral.ai)- Model OCR generasi berikutnya yang meningkatkan akurasi dan efisiensi pemrosesan dokumen secara bersamaan, dengan performa pengenalan tinggi pada berbagai jenis dokumen
- Mencatat peningkatan performa keseluruhan sebesar 74% dibanding versi sebelumnya, dengan hasil unggul pada tulisan tangan, formulir, tabel kompleks, dan dokumen hasil pemindaian
- Mendukung rekonstruksi tabel berbasis HTML dan output markdown sehingga informasi struktural dokumen juga dapat dipertahankan
- $2 per 1.000 halaman, dengan diskon 50% untuk pemrosesan massal, menghadirkan efisiensi biaya
- Teknologi OCR yang dapat dimanfaatkan secara luas, mulai dari pipeline dokumen enterprise berskala besar hingga workflow dokumen interaktif, dan muncul sebagai infrastruktur inti untuk pemanfaatan data berbasis AI generatif
Kinerja dan fitur utama
- Mistral OCR 3 melakukan ekstraksi teks dan gambar tertanam dari berbagai dokumen dengan presisi tinggi
- Mendukung output format markdown dan fitur rekonstruksi tabel HTML, sehingga dapat mengenali bukan hanya isi dokumen tetapi juga strukturnya
- Ukuran model yang kecil memungkinkan layanan ini ditawarkan dengan biaya lebih rendah dibanding solusi pesaing, yaitu $2 per 1.000 halaman, atau $1 saat menggunakan Batch API
- Model mistral-ocr-2512 dapat diintegrasikan melalui API, atau PDF dan gambar dapat dikonversi menjadi teks atau JSON terstruktur melalui UI Document AI Playground
Peningkatan performa dan benchmark
- Dalam benchmark internal, model ini mencatat tingkat kemenangan 74% dibanding Mistral OCR 2
- Pengujian dilakukan berdasarkan kasus bisnis nyata dari pelanggan, dan akurasi dievaluasi menggunakan fuzzy-match metric
- Mencapai akurasi yang melampaui solusi pemrosesan dokumen enterprise dan OCR berbasis AI
Area peningkatan utama
- Pengenalan tulisan tangan: menafsirkan tulisan tangan, anotasi campuran, dan tulisan tangan di atas formulir cetak dengan akurat
- Pemrosesan formulir: peningkatan pengenalan kotak, label, input tulisan tangan, dan layout kompleks
- Dokumen pindai dan kompleks: memiliki ketahanan tinggi terhadap artefak kompresi, distorsi, resolusi rendah, dan noise latar belakang
- Struktur tabel kompleks: mereproduksi tabel secara lengkap menggunakan tag HTML (
colspan/rowspan), termasuk header, sel gabungan, serta hierarki multi-baris dan multi-kolom - Peningkatan performa menyeluruh dibanding Mistral OCR 2 di semua bahasa dan bentuk dokumen
Contoh penggunaan dan bidang aplikasi
- Cocok untuk pipeline dokumen enterprise berskala besar maupun workflow dokumen interaktif
- Mendukung konversi ke markdown setelah ekstraksi teks dan gambar, parsing otomatis formulir dan invoice, pembangunan pipeline pemahaman dokumen, serta digitalisasi tulisan tangan dan dokumen sejarah
- Pelanggan awal menggunakannya untuk mengubah invoice menjadi field terstruktur, mendigitalisasi arsip perusahaan, mengekstrak teks dari laporan teknis dan ilmiah, serta meningkatkan pencarian enterprise
- Tim Law dari IDC menyatakan, “OCR adalah teknologi fondasi bagi AI generatif dan AI agen, dan kemampuan ekstraksi teks yang sangat akurat dengan biaya rendah menentukan daya saing dalam pemanfaatan data”
Pendekatan akses dan kompatibilitas
- Dapat langsung digunakan melalui API atau antarmuka Document AI Playground
- Sepenuhnya kompatibel dengan Mistral OCR 2, sehingga mudah di-upgrade dari sistem yang sudah ada
- Dokumentasi rinci tersedia di mistral.ai/docs
1 komentar
Komentar Hacker News
Setelah melihat video ini di Twitter, saya jadi bertanya-tanya kenapa Mistral tidak membandingkannya dengan model SoTA terbaru
Akan bagus jika dibandingkan dengan model seperti Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, dan PaddleOCR
Mistral sedang membandingkannya dengan layanan computer vision biasa, bukan model berbasis VLM
Yang pertama punya pemahaman dokumen yang lebih baik, sedangkan yang kedua memberikan bounding box yang akurat
Pola kegagalannya juga berbeda — VLM bisa salah membaca satu kalimat penuh, sementara model vision biasanya hanya salah ketik pada level kata
Dalam 3 bulan terakhir, muncul sangat banyak model OCR open-source
Khususnya model dengan kurang dari 1B parameter yang juga berjalan baik di edge device
Akan bagus kalau dibandingkan dengan model seperti paddleOCR-VL, olmOCR-2, chandra, dan dots.ocr
Sayangnya hampir tidak ada leaderboard atau arena untuk OCR atau CV
Modelnya dibandingkan dengan format duel seperti llmarena, tapi Mistral masih belum diperbarui di sana
Saat ini Gemini ada di peringkat atas
OCR lain berbasis token sehingga sulit menghitung biaya sebenarnya
Misalnya Gemini 3.0 flash terlihat punya harga yang mirip, tetapi dalam satuan token biaya nyatanya sekitar 3 kali lebih mahal
Lalu saya memberi Claude akses root untuk memasangnya sebagai gantinya, dan dia tampaknya jauh lebih menikmati proses itu daripada saya
Saya juga punya pengalaman serupa saat memasang open web UI, dan akhirnya saya menulis sendiri hanya fitur yang saya butuhkan dalam 100 baris HTML
Saya berharap OCR juga bisa dibuat sesederhana itu
Mistral OCR 3 disebut cocok untuk pipeline perusahaan berskala besar, tetapi dengan akurasi 79% rasanya sulit dipercaya
Dari sudut pandang pekerjaan jurnal ilmiah, kesalahan pengenalan seperti 2.9+0.5 dan 29+0.5 bisa sangat fatal
Pada akhirnya verifikasi manusia tetap dibutuhkan di setiap tahap
Saya sedang mengerjakan proyek mengubah kamus Shipibo (bahasa pribumi Peru)-Spanyol menjadi kamus Shipibo-Inggris
Kualitas scan PDF-nya buruk, dan OCR sering gagal karena layout dua kolom serta header/footer
Pekerjaannya rumit karena saya harus memisahkan contoh kalimat Shipibo dan definisi bahasa Spanyol lalu menerjemahkannya hanya ke bahasa Inggris
Setiap kali ada kabar OCR/LLM baru saya mencobanya, tetapi selalu berakhir mengecewakan
Dalam budaya Shipibo, bukan orang biasa melainkan maestra yang meminum Ayahuasca untuk mendiagnosis penyakit
Untuk tiap tanaman ada dieta (pantangan makan/puasa ritual), dengan pembatasan seperti tidak memakai sabun, tidak berhubungan seksual, dan tidak mengonsumsi garam
Secara tradisional ini bisa berlangsung lebih dari setahun, meski kini sering dipersingkat menjadi beberapa minggu
Saya terkesan melihat betapa dalamnya mereka meneliti pengobatan berbasis tanaman
Saya ingin mengubah buku teks matematika menjadi markdown dengan rumus LaTeX, tetapi belum ada model OCR yang benar-benar memuaskan
Saya berencana mengujinya langsung di OCR playground milik Mistral
Rumus pun dikonversi ke LaTeX dengan sempurna
Saya sedang mencari terjemahan dalam gambar (in-place translation)
Mistral OCR3 berfokus pada ekstraksi data, jadi tidak cocok untuk kebutuhan saya
Saya ingin teks pada artbook asing diterjemahkan dan ditampilkan langsung di atas gambar, tetapi layanan berbayar yang sudah ada gagal karena penempatan teks yang tidak standar
Saat ini saya menerjemahkannya dengan menyorot layar memakai Google Lens, tetapi kurang nyaman
Lens bawaan Chrome juga masih butuh pemilihan manual, jadi belum sepenuhnya otomatis
Ada yang tahu kabar perkembangan fitur seperti ini?
Belakangan ini Mistral terasa hanya mengejar pinggiran fitur AI
Mereka tampak tertinggal dibanding OAI, Google, dan Anthropic, dan investasi tingkat UE juga kelihatannya kurang
Jauh lebih bernilai daripada membuat meme
Karena model bisnis belum benar-benar mapan, masuk akal jika Mistral fokus pada kualitas model inti
Menjaga talenta di UE sambil membuat model yang cukup bagus adalah target yang realistis
Saya melihat penilaian bahwa performa Mistral kalah dari berbagai OCR open-source seperti Paddle, MinerU, MonkeyOCR, dan lainnya
Lihat codesota.com/ocr
Saya sedang menguji Mistral sebagai pengganti MathPix
Skrip Python ini adalah prototipe yang mengambil gambar clipboard setelah snipping di Windows, mengirimkannya ke Mistral, lalu secara otomatis menempelkan hasil Markdown
Masalah terbesar Mistral adalah tidak merespons pertanyaan pelanggan
Bersembunyi di balik “hubungi untuk harga” membuatnya tidak ada artinya meskipun lebih baik daripada SoTA
Saya lebih memilih layanan yang mungkin lebih mahal dan performanya lebih rendah asalkan tidak perlu melewati proses seperti itu