Mistral OCR 4 dirilis

(mistral.ai)

1 poin oleh GN⁺ 3 jam lalu | 1 komentar | Bagikan ke WhatsApp

Mistral OCR 4 yang dirilis oleh Mistral AI adalah model pemahaman dokumen yang melampaui OCR yang hanya mengekstrak teks dari dokumen, dengan juga mengembalikan bounding box, klasifikasi blok, hingga skor kepercayaan inline
Mendukung 170 bahasa dalam 10 kelompok bahasa serta self-hosting dalam satu container, sehingga cocok untuk pipeline pengumpulan dokumen di organisasi yang mengutamakan kedaulatan data dan kepatuhan
Dalam evaluasi preferensi manusia, model ini mencatat tingkat kemenangan 72% rata-rata, dan juga meraih skor tinggi pada evaluasi publik maupun internal seperti OlmOCRBench 85.20 dan OmniDocBench 93.07
Namun, karena ada keterbatasan penilaian seperti kesalahan ground truth, notasi rumus yang ekuivalen, urutan pembacaan multi-kolom, dan penanganan header/footer, skor benchmark perlu dilihat bersama evaluasi dokumen nyata
API dihargai $4 per 1.000 halaman, Batch API $2, dan Document AI $5; ekstraksi mentah cukup dengan OCR 4, tetapi jika membutuhkan JSON terstruktur, anotasi gambar, atau prompt kustom maka jalur Document AI lebih sesuai

Representasi dokumen terstruktur yang dikembalikan OCR 4

OCR 4 mengekstrak dan menata konten dari berbagai dokumen, dan tidak berhenti pada teks bersih serta konversi tabel seperti generasi sebelumnya, tetapi juga menyediakan representasi terstruktur
Setiap blok mencakup bounding box, tipe blok, serta skor kepercayaan inline pada tingkat halaman dan kata
- Sistem downstream dapat memanfaatkan bukan hanya isi dokumen, tetapi juga posisi, peran, dan tingkat kepercayaan tiap elemen
Alur pemanfaatan utamanya adalah sebagai berikut
- Chunking berbasis unit semantik untuk RAG: menggunakan blok yang sudah dirapikan dan diklasifikasikan sebagai unit pencarian
- Primitive struktur untuk agen: mendukung pengisian formulir, pemrosesan invoice, dan pemeriksaan kepatuhan
- Konten terstruktur untuk konektor: menyediakan output bertipe yang konsisten untuk pipeline ingest dan indexing

Format, bahasa, dan cara deployment

Format input mencakup format dokumen enterprise yang umum seperti PDF, DOC, PPT, dan OpenDocument
Mendukung 170 bahasa dalam 10 kelompok bahasa, termasuk bahasa spesialis dan bahasa dengan sumber daya rendah yang sering menjadi titik lemah banyak sistem
Model ini cukup kecil untuk dideploy dalam satu container, sehingga cocok untuk lingkungan yang sensitif biaya dan membutuhkan throughput tinggi
Mendukung eksekusi self-hosting penuh, sehingga organisasi dengan kebutuhan kedaulatan data dapat menjaga data dokumen tetap berada di dalam infrastrukturnya sendiri
Deployment yang dikelola sendiri tersedia untuk pelanggan enterprise

Harga dan jalur penggunaan

Developer dapat mengintegrasikan model lewat API, dan tim dapat menggunakan engine yang sama sebagai aplikasi no-code melalui Document AI di Mistral Studio
Harganya adalah sebagai berikut
- OCR 4 API: $4 per 1.000 halaman
- Dengan diskon 50% Batch API: $2 per 1.000 halaman
- Document AI: $5 per 1.000 halaman
OCR 4 diintegrasikan sebagai komponen ingest dalam Mistral Search Toolkit, untuk menyediakan input yang dapat dikutip bagi workflow ingest, retrieval, dan evaluasi untuk RAG serta pencarian enterprise

Hasil evaluasi dan keterbatasan benchmark

Evaluasi OCR 4 dilakukan dengan membandingkannya terhadap model OCR AI-native, model frontier serbaguna, layanan dokumen enterprise, dan Mistral OCR 3
Evaluasi preferensi manusia disusun agar mencerminkan penggunaan nyata dengan lebih dari 600 dokumen dalam lebih dari 12 bahasa, dan anotator independen membandingkan secara blind output tiap sistem pesaing dengan output OCR 4 per dokumen
- Anotator lebih sering memilih OCR 4 pada sebagian besar dokumen dibanding semua sistem yang diuji
- Tingkat kemenangan rata-ratanya adalah 72%
Pada OlmOCRBench publik, OCR 4 mencatat skor keseluruhan tertinggi di antara model yang diuji, yaitu 85.20
Pada Crawl Multilingual evaluation internal, model ini mencatat .98, unggul atas solusi AI-native dan enterprise
Skor OmniDocBench adalah 93.07, tetapi baik OlmOCRBench maupun OmniDocBench memiliki keterbatasan yang sudah diketahui dalam metode penilaian beberapa output
Sebagian besar ketidaksesuaian yang diaudit muncul bukan karena kesalahan model, melainkan dari cara perbandingan benchmark dilakukan
- Kesalahan ground truth: anotasi referensi bisa memuat teks yang hilang atau berlebih, transkripsi area yang tertutup, atau typo
- Notasi rumus ekuivalen: bahkan jika hasil render LaTeX sama, string yang berbeda tetap dihitung sebagai ketidakcocokan
- Pemecahan rumus: kecocokan terhadap jawaban dapat goyah tergantung apakah rumus diekspor sebagai satu kesatuan atau dibagi menjadi beberapa fragmen inline
- Urutan baca multi-kolom: kata yang terbelah di batas kolom dan asumsi urutan kolom dapat membuat ekstraksi yang benar tetap dinilai gagal
- Atribusi tipe blok: meski header dan footer dihapus dari output, pengujian masih bisa salah menandai string seperti judul halaman
Artefak semacam ini terkonsentrasi pada dokumen matematika, sains, dan multi-kolom, dan lebih sering memberi penalti pada output yang benar daripada memberi imbalan pada output yang salah
Semua skor pesaing merupakan hasil reproduksi internal, sehingga lebih aman melakukan evaluasi langsung dengan dokumen sendiri sebelum adopsi nyata

Performa multibahasa

Dalam evaluasi multibahasa internal, OCR 4 unggul di semua 8 kelompok bahasa
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu, dan bahasa spesialis lainnya
Kesenjangannya paling besar pada bahasa spesialis dan bahasa dengan sumber daya rendah, dan OCR 4 tetap mempertahankan akurasi tinggi bahkan di area tempat banyak sistem pesaing mengalami penurunan tajam

Use case yang direkomendasikan dan cakupan yang dikecualikan

OCR 4 mendukung baik pipeline throughput tinggi maupun workflow dokumen interaktif
Use case yang direkomendasikan adalah sebagai berikut
- Parsing dan ekstraksi dokumen untuk dokumen multibahasa yang kompleks
- Pembuatan konten terstruktur, terklasifikasi, dan dapat dikutip untuk RAG
- Input pipeline pencarian yang digabungkan dengan Search Toolkit
- Workflow agen seperti pengisian formulir, pemrosesan invoice, dan pemeriksaan kepatuhan
- Pipeline data terstruktur berbasis verifikasi manusia yang memanfaatkan skor kepercayaan
- Komponen sumber data untuk pencarian enterprise dan knowledge base
Pengguna awal sudah menerapkan OCR 4 untuk konversi field terstruktur pada invoice, digitalisasi arsip perusahaan, ekstraksi teks bersih dari laporan teknis dan ilmiah, serta pencarian enterprise
OCR 4 adalah model pemahaman dokumen dan bukan pengambil keputusan
- Model ini tidak ditujukan untuk diagnosis medis, nasihat atau penilaian hukum, keputusan finansial berisiko tinggi, sistem yang kritikal terhadap keselamatan, pemrosesan real-time atau sensitif latensi, maupun input non-dokumen seperti audio dan video mentah

Kriteria memilih OCR 4 API dan Document AI

OCR 4 disediakan melalui satu endpoint API, dan semua request menjalankan model OCR dasar yang sama
Respons default selalu mencakup konten hasil ekstraksi, bounding box, tipe blok, skor kepercayaan, dan teks terstruktur Markdown
Mode ekstraksi murni cocok untuk situasi berikut
- Menanamkan ekstraksi dokumen yang cepat dan akurat langsung ke aplikasi, agen, atau pipeline data
- Menyusun logika pascapemrosesan kustom dengan memanfaatkan langsung respons mentah, bounding box, tipe blok, dan skor kepercayaan
- Ingest throughput tinggi dan batch dengan Batch API untuk mengendalikan throughput dan biaya
- Self-hosting yang disesuaikan dengan kebutuhan ketat soal privasi data, kedaulatan, dan kepatuhan
Fitur Document AI diaktifkan dengan menambahkan parameter pada endpoint yang sama
- Jika JSON schema dikirim bersama dokumen, output OCR akan dimasukkan ke mistral-small-2603 untuk menghasilkan JSON terstruktur yang sesuai dengan spesifikasi yang ditentukan
- Jika schema anotasi gambar dikirim, panggilan tambahan ke vision-language model akan menghasilkan JSON terstruktur untuk setiap gambar yang terdeteksi
- Prompt kustom dapat digunakan bersama JSON schema untuk mengarahkan interpretasi atau ringkasan atas konten hasil ekstraksi dari seluruh dokumen
- Pengguna bisnis, tim solusi, dan proyek pilot dapat menghasilkan hasil terstruktur tanpa logika parsing pascapemrosesan terpisah
Jika hanya membutuhkan konten ekstraksi mentah, gunakan OCR 4 apa adanya; jika perlu pemformatan ulang terstruktur, anotasi field domain, atau pemrosesan instruksi kustom, tambahkan parameter Document AI

Kanal ketersediaan dan cara memulai

Mistral OCRv4 dan Document AI berbasis OCRv4 tersedia melalui API, Mistral Studio, Amazon SageMaker, dan Microsoft Foundry
Dukungan Snowflake Parse Document akan segera tersedia
Untuk organisasi yang perlu menjaga informasi sensitif tetap berada di dalam infrastrukturnya sendiri, OCR 4 juga menyediakan opsi self-hosting
Sumber daya untuk memulai adalah sebagai berikut
- Getting Started with OCR 4 Cookbook: membahas ekstraksi pertama, pekerjaan dengan bounding box, dan klasifikasi blok
- OCR4 in Production webinar: demo dan tanya jawab pada 7 Juli pukul 18.00 CET
- Contact Sales: untuk meminta informasi tambahan

1 komentar

GN⁺ 3 jam lalu

Pendapat Hacker News

US Postal Service selalu terasa seperti keajaiban teknis
Mereka bisa mengidentifikasi dan merutekan miliaran kiriman pos dengan teknologi yang jauh lebih primitif, dan alamat di AS sangat tidak standar sampai-sampai alamat yang sama bisa ditulis dengan banyak cara berbeda namun tetap sampai ke tempat yang sama
Mungkin ada banyak pengetahuan terbuka di bidang ini, tetapi melihat apa yang sudah dilakukan selama bertahun-tahun pada skala USPS membuat setiap pengumuman OCR terasa seperti masalah yang sebenarnya sudah terpecahkan
- Ayah saya pernah menerima surat dari Aljazair yang di amplopnya hanya tertulis tiga kata: nama, “Créteil” (kota berpenduduk sekitar 100 ribu tempat ia tinggal saat itu), dan “France”
  Itu terjadi pada tahun 1970-an, belum ada internet maupun basis data terpusat, tetapi layanan pos tetap berhasil mengantarkannya
  Kemungkinan karena ayah saya sangat aktif dalam kegiatan sosial dan juga mengelola tim sepak bola remaja, jadi cukup dikenal di lingkungannya hanya dari namanya
  Sekarang ini orang sering tidak bisa menemukan orang atau tempat tanpa bantuan ponsel, dan tukang pos pun tidak lagi banyak mengobrol
  Rasanya surat seperti itu sekarang tidak akan lolos baik lewat proses teknis maupun mungkin lewat jaringan manusia
- Saya dulu pernah kerja paruh waktu di layanan pos Denmark, dan penyortiran otomatis hanya sampai kode pos
  Setelah itu surat sampai ke kantor pos yang benar, sisanya ditangani para kurir pos pagi-pagi sekali
  Cukup menyenangkan menebak arti sebuah alamat, dan terutama pegawai yang lebih tua sering tahu cerita mengapa suatu tempat ditulis dengan format alamat tertentu, atau bisa menebak alamat hanya dari nama penghuninya
- Tom Scott punya video bagus tentang topik ini: https://www.youtube.com/watch?v=XxCha4Kez9c
- Ada banyak pengecualian aneh dalam alamat AS
  Carmel-by-the-Sea tidak punya nomor jalan, dan alamat di Florida Keys sering kali cuma nomor penanda mil
  Itu bisa tetap terkirim karena orang yang menangani rute tersebut sudah terbiasa
- Kalau memakai standar alamat India sebagai patokan, ketidakstandaran alamat AS malah terasa lucu
Saya penasaran apakah ada model terbuka yang fokus pada pengenalan pelat nomor
Saya memang menemukan beberapa model lama, tetapi penasaran apakah ada yang sedang dikembangkan baru seperti model OCR ini
Mungkin saya juga bisa langsung mencobanya sendiri untuk use case ini dan melihat performanya
Video di halaman yang ditautkan ternyata berbeda dari dugaan saya
Saya mengira Mistral adalah perusahaan AI Eropa, tetapi videonya direkam di San Francisco dan tiga orang yang muncul juga tidak terlihat seperti orang Eropa, jadi cukup mengejutkan
Tidak masalah jika memang organisasi global, hanya saja saya membayangkan kantor Paris dan aksen khas Eropa
- Sayangnya pelanggan Eropa adalah pelanggan yang sulit menghasilkan uang
  Pertanyaannya banyak dan dompetnya sangat hemat, sementara orang Amerika berbeda
- Perusahaan teknologi Eropa yang sudah punya skala tertentu biasanya punya kantor di pantai barat AS, setidaknya untuk penjualan
  Mungkin juga ada engineering penjualan
  Selisih waktunya 8–10 jam, jadi secara praktis memang tidak bisa dihindari
  Perusahaan tempat saya dulu bekerja malah punya kantor di Vancouver, yang berada di zona waktu yang sama
- Blackmagic Design juga mirip
  Meskipun sebagian besar berbasis di Australia, kalau melihat urutan daftar kantor di https://www.blackmagicdesign.com/company/offices dan halaman perusahaannya, kesannya seperti perusahaan Amerika
- Setahu saya, sebagian besar tim pendiri memulai karier di perusahaan AS seperti Meta, dan investor utamanya juga VC Amerika
  Dalam hal itu mereka tampaknya dengan cerdas memanfaatkan dua sisi sekaligus: pendanaan Amerika dan talenta Eropa
- Bahkan ada bendera Amerika yang dipasang tinggi di latar belakang
Menarik melihat kira-kira model ini akan berada di peringkat mana dibanding https://github.com/baidu/Unlimited-OCR
- Benar, baru saja diumumkan: https://x.com/BaiduAI_News/status/2069322806748410291
Jika harganya 4 dolar per 1.000 halaman memang murah, tetapi versi-versi sebelumnya semua semacam “akurasi 98% berdasarkan 4 PDF benchmark internal”, dan pada praktiknya hasilnya kalah dari hampir semua alternatif di pasar, jadi saya agak enggan melakukan benchmark lagi
Kali ini juga mereka menonjolkan angka representatif dari benchmark internal sambil mengatakan bahwa OlmOCRBench dan OmniDocBench punya “keterbatasan yang diketahui”
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
- Kesimpulannya sama, tetapi setelah saya menjalankan beberapa sampel sendiri, memang terlihat ada peningkatan nyata sejak versi Desember 2025
Semua lab AI benar-benar harus berhenti memakai sumbu y yang dipotong pada grafik batang benchmark
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Saya mengujinya dalam Malayalam; tulisan tangan biasa terbaca akurat, tetapi gaya yang sedikit berbeda terdeteksi sebagai Kannada
Kalau perlu saya bisa memberi sampel, dan Sarvam menangani sampel yang sama dengan akurasi 99%, hanya menyisakan satu kesalahan teks
- Saya penasaran dengan pengalaman orang yang pernah memakai Sarvam di luar bahasa-bahasa India
  Misalnya pada Indian English, dokumen yang mencampur ungkapan India yang ditulis dalam alfabet Latin, dan dokumen dengan layout kompleks seperti gambar dan tabel
  Saya memang tertarik pada layanan India, tetapi sejauh yang saya ingat harganya tampak agak mahal dari yang saya perkirakan
  Tentu bisa saja ingatan saya keliru
Dibanding model OCR v3 sebelumnya pada bulan Desember, hampir tidak ada perbedaan yang dijelaskan selain bounding box, sementara harganya dua kali lipat: https://mistral.ai/news/mistral-ocr-3/
Waktu itu mereka memakai benchmark yang berbeda
“Catatan soal penggunaan di luar cakupan. OCR 4 adalah model pemahaman dokumen, bukan pengambil keputusan. Ini bukan untuk diagnosis medis, nasihat atau penilaian hukum, pengambilan keputusan finansial berisiko tinggi, sistem yang kritis terhadap keselamatan, pemrosesan real-time/sensitif latensi, atau input non-dokumen (audio mentah, video, dan sebagainya).”
Sudah kebayang ada manajer “inovatif” yang di rapat berikutnya akan bilang, “Oke, tapi bagaimana kalau dipakai untuk pengambilan keputusan finansial berisiko tinggi dengan input non-dokumen seperti foto dari ponsel?”
Saya berani jamin minggu depan ada seseorang di HN yang akan menulis “ide” ini di komentar
- Saya tidak paham kenapa harus sengaja melakukan itu
  Ada puluhan model yang jauh lebih bagus untuk tugas tersebut, sementara hasil dari ini kemungkinan hanya akan buruk jika dibandingkan
  Ini bukan model untuk menjawab pertanyaan, melainkan untuk konversi teks
  Rasanya seperti cuma ingin memaksakan sudut pandang anti-AI
- Semua perusahaan AI sedang membuat model terspesialisasi yang sangat kuat untuk satu tugas tertentu
  Mistral hanya lebih jujur soal hal ini, mungkin karena mereka tidak perlu atau tidak ingin memukau audiens dengan alat pengguna umum (chat) yang terlihat seperti ahli dalam segala hal
  Bahkan alat seperti itu pun cukup sering sebenarnya hanyalah rangkaian beberapa model spesialis
  Yang diinginkan di sini bisa dilakukan dengan beberapa skrip Python
  Ubah prompt suara menjadi teks dengan Voxtral, lalu kirim ke Mistral Large 3 bersama system prompt tambahan agar ia membuat prompt OCR dan path file, setelah itu cari file dalam loop dan lempar ke OCR 3, lalu interpretasikan lagi dengan Mistral Large 3 untuk diubah menjadi keputusan
  Susunan seperti ini umum, malah lebih jarang semua hal ditangani oleh satu model saja
- “Kami menyerahkan keputusan finansial penting ke perangkat lunak OCR, dan Anda tidak akan percaya apa yang terjadi setelahnya”
Baru-baru ini saya mencoba OCR dengan Opus 4.8
Secara teknis itu bukan alat yang tepat, tetapi yang saya butuhkan cuma mengekstrak tanggal dari struk
Sekitar 20% tanggalnya salah, tetapi semuanya tetap dinilai dengan “confidence tinggi”
Mungkin saya memang seharusnya memakai model yang khusus untuk OCR
- Rasanya ekstraksi tanggal dari struk sudah hampir jadi masalah yang terselesaikan sejak sekitar 30 tahun lalu
  Rasanya bahkan alat OCR shareware yang dulu ikut dibundel dengan scanner hitam-putih pun akan lebih baik daripada tingkat kesalahan 20%
- Saya tidak tahu soal Opus, tetapi OCR pada produk langganan Gemini sepertinya bukan dikerjakan langsung oleh modelnya
  Kelihatannya mereka memakai alat OCR terpisah yang kuno, dan hasil pengujiannya juga buruk
  Sebaliknya, di Gemini API modelnya melakukan OCR secara langsung dan akurasinya jauh lebih baik
- Opus sangat bagus dalam OCR
  Jauh lebih baik daripada model vision-language kecil 1~4B
  Jika Opus gagal, kemungkinan besar sebagian besar model kecil seperti itu juga akan gagal
- Saya sulit percaya dengan cerita ini
  Baru-baru ini saya memindai ratusan PDF dengan campuran tulisan tangan terburuk memakai Opus 4.8, dan selain satu catatan yang bahkan saya sendiri tidak bisa baca, tingkat keberhasilannya 100%

Mistral OCR 4 dirilis

Representasi dokumen terstruktur yang dikembalikan OCR 4

Format, bahasa, dan cara deployment

Harga dan jalur penggunaan

Hasil evaluasi dan keterbatasan benchmark

Performa multibahasa

Use case yang direkomendasikan dan cakupan yang dikecualikan

Kriteria memilih OCR 4 API dan Document AI

Kanal ketersediaan dan cara memulai

Bacaan terkait

1 komentar

Pendapat Hacker News