Mistral OCR 4 dirilis
(mistral.ai)- Mistral OCR 4 yang dirilis oleh Mistral AI adalah model pemahaman dokumen yang melampaui OCR yang hanya mengekstrak teks dari dokumen, dengan juga mengembalikan bounding box, klasifikasi blok, hingga skor kepercayaan inline
- Mendukung 170 bahasa dalam 10 kelompok bahasa serta self-hosting dalam satu container, sehingga cocok untuk pipeline pengumpulan dokumen di organisasi yang mengutamakan kedaulatan data dan kepatuhan
- Dalam evaluasi preferensi manusia, model ini mencatat tingkat kemenangan 72% rata-rata, dan juga meraih skor tinggi pada evaluasi publik maupun internal seperti OlmOCRBench 85.20 dan OmniDocBench 93.07
- Namun, karena ada keterbatasan penilaian seperti kesalahan ground truth, notasi rumus yang ekuivalen, urutan pembacaan multi-kolom, dan penanganan header/footer, skor benchmark perlu dilihat bersama evaluasi dokumen nyata
- API dihargai $4 per 1.000 halaman, Batch API $2, dan Document AI $5; ekstraksi mentah cukup dengan OCR 4, tetapi jika membutuhkan JSON terstruktur, anotasi gambar, atau prompt kustom maka jalur Document AI lebih sesuai
Representasi dokumen terstruktur yang dikembalikan OCR 4
- OCR 4 mengekstrak dan menata konten dari berbagai dokumen, dan tidak berhenti pada teks bersih serta konversi tabel seperti generasi sebelumnya, tetapi juga menyediakan representasi terstruktur
- Setiap blok mencakup bounding box, tipe blok, serta skor kepercayaan inline pada tingkat halaman dan kata
- Sistem downstream dapat memanfaatkan bukan hanya isi dokumen, tetapi juga posisi, peran, dan tingkat kepercayaan tiap elemen
- Alur pemanfaatan utamanya adalah sebagai berikut
- Chunking berbasis unit semantik untuk RAG: menggunakan blok yang sudah dirapikan dan diklasifikasikan sebagai unit pencarian
- Primitive struktur untuk agen: mendukung pengisian formulir, pemrosesan invoice, dan pemeriksaan kepatuhan
- Konten terstruktur untuk konektor: menyediakan output bertipe yang konsisten untuk pipeline ingest dan indexing
Format, bahasa, dan cara deployment
- Format input mencakup format dokumen enterprise yang umum seperti PDF, DOC, PPT, dan OpenDocument
- Mendukung 170 bahasa dalam 10 kelompok bahasa, termasuk bahasa spesialis dan bahasa dengan sumber daya rendah yang sering menjadi titik lemah banyak sistem
- Model ini cukup kecil untuk dideploy dalam satu container, sehingga cocok untuk lingkungan yang sensitif biaya dan membutuhkan throughput tinggi
- Mendukung eksekusi self-hosting penuh, sehingga organisasi dengan kebutuhan kedaulatan data dapat menjaga data dokumen tetap berada di dalam infrastrukturnya sendiri
- Deployment yang dikelola sendiri tersedia untuk pelanggan enterprise
Harga dan jalur penggunaan
- Developer dapat mengintegrasikan model lewat API, dan tim dapat menggunakan engine yang sama sebagai aplikasi no-code melalui Document AI di Mistral Studio
- Harganya adalah sebagai berikut
- OCR 4 API: $4 per 1.000 halaman
- Dengan diskon 50% Batch API: $2 per 1.000 halaman
- Document AI: $5 per 1.000 halaman
- OCR 4 diintegrasikan sebagai komponen ingest dalam Mistral Search Toolkit, untuk menyediakan input yang dapat dikutip bagi workflow ingest, retrieval, dan evaluasi untuk RAG serta pencarian enterprise
Hasil evaluasi dan keterbatasan benchmark
- Evaluasi OCR 4 dilakukan dengan membandingkannya terhadap model OCR AI-native, model frontier serbaguna, layanan dokumen enterprise, dan Mistral OCR 3
- Evaluasi preferensi manusia disusun agar mencerminkan penggunaan nyata dengan lebih dari 600 dokumen dalam lebih dari 12 bahasa, dan anotator independen membandingkan secara blind output tiap sistem pesaing dengan output OCR 4 per dokumen
- Anotator lebih sering memilih OCR 4 pada sebagian besar dokumen dibanding semua sistem yang diuji
- Tingkat kemenangan rata-ratanya adalah 72%
- Pada OlmOCRBench publik, OCR 4 mencatat skor keseluruhan tertinggi di antara model yang diuji, yaitu 85.20
- Pada Crawl Multilingual evaluation internal, model ini mencatat .98, unggul atas solusi AI-native dan enterprise
- Skor OmniDocBench adalah 93.07, tetapi baik OlmOCRBench maupun OmniDocBench memiliki keterbatasan yang sudah diketahui dalam metode penilaian beberapa output
- Sebagian besar ketidaksesuaian yang diaudit muncul bukan karena kesalahan model, melainkan dari cara perbandingan benchmark dilakukan
- Kesalahan ground truth: anotasi referensi bisa memuat teks yang hilang atau berlebih, transkripsi area yang tertutup, atau typo
- Notasi rumus ekuivalen: bahkan jika hasil render LaTeX sama, string yang berbeda tetap dihitung sebagai ketidakcocokan
- Pemecahan rumus: kecocokan terhadap jawaban dapat goyah tergantung apakah rumus diekspor sebagai satu kesatuan atau dibagi menjadi beberapa fragmen inline
- Urutan baca multi-kolom: kata yang terbelah di batas kolom dan asumsi urutan kolom dapat membuat ekstraksi yang benar tetap dinilai gagal
- Atribusi tipe blok: meski header dan footer dihapus dari output, pengujian masih bisa salah menandai string seperti judul halaman
- Artefak semacam ini terkonsentrasi pada dokumen matematika, sains, dan multi-kolom, dan lebih sering memberi penalti pada output yang benar daripada memberi imbalan pada output yang salah
- Semua skor pesaing merupakan hasil reproduksi internal, sehingga lebih aman melakukan evaluasi langsung dengan dokumen sendiri sebelum adopsi nyata
Performa multibahasa
- Dalam evaluasi multibahasa internal, OCR 4 unggul di semua 8 kelompok bahasa
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu, dan bahasa spesialis lainnya
- Kesenjangannya paling besar pada bahasa spesialis dan bahasa dengan sumber daya rendah, dan OCR 4 tetap mempertahankan akurasi tinggi bahkan di area tempat banyak sistem pesaing mengalami penurunan tajam
Use case yang direkomendasikan dan cakupan yang dikecualikan
- OCR 4 mendukung baik pipeline throughput tinggi maupun workflow dokumen interaktif
- Use case yang direkomendasikan adalah sebagai berikut
- Parsing dan ekstraksi dokumen untuk dokumen multibahasa yang kompleks
- Pembuatan konten terstruktur, terklasifikasi, dan dapat dikutip untuk RAG
- Input pipeline pencarian yang digabungkan dengan Search Toolkit
- Workflow agen seperti pengisian formulir, pemrosesan invoice, dan pemeriksaan kepatuhan
- Pipeline data terstruktur berbasis verifikasi manusia yang memanfaatkan skor kepercayaan
- Komponen sumber data untuk pencarian enterprise dan knowledge base
- Pengguna awal sudah menerapkan OCR 4 untuk konversi field terstruktur pada invoice, digitalisasi arsip perusahaan, ekstraksi teks bersih dari laporan teknis dan ilmiah, serta pencarian enterprise
- OCR 4 adalah model pemahaman dokumen dan bukan pengambil keputusan
- Model ini tidak ditujukan untuk diagnosis medis, nasihat atau penilaian hukum, keputusan finansial berisiko tinggi, sistem yang kritikal terhadap keselamatan, pemrosesan real-time atau sensitif latensi, maupun input non-dokumen seperti audio dan video mentah
Kriteria memilih OCR 4 API dan Document AI
- OCR 4 disediakan melalui satu endpoint API, dan semua request menjalankan model OCR dasar yang sama
- Respons default selalu mencakup konten hasil ekstraksi, bounding box, tipe blok, skor kepercayaan, dan teks terstruktur Markdown
- Mode ekstraksi murni cocok untuk situasi berikut
- Menanamkan ekstraksi dokumen yang cepat dan akurat langsung ke aplikasi, agen, atau pipeline data
- Menyusun logika pascapemrosesan kustom dengan memanfaatkan langsung respons mentah, bounding box, tipe blok, dan skor kepercayaan
- Ingest throughput tinggi dan batch dengan Batch API untuk mengendalikan throughput dan biaya
- Self-hosting yang disesuaikan dengan kebutuhan ketat soal privasi data, kedaulatan, dan kepatuhan
- Fitur Document AI diaktifkan dengan menambahkan parameter pada endpoint yang sama
- Jika JSON schema dikirim bersama dokumen, output OCR akan dimasukkan ke
mistral-small-2603untuk menghasilkan JSON terstruktur yang sesuai dengan spesifikasi yang ditentukan - Jika schema anotasi gambar dikirim, panggilan tambahan ke vision-language model akan menghasilkan JSON terstruktur untuk setiap gambar yang terdeteksi
- Prompt kustom dapat digunakan bersama JSON schema untuk mengarahkan interpretasi atau ringkasan atas konten hasil ekstraksi dari seluruh dokumen
- Pengguna bisnis, tim solusi, dan proyek pilot dapat menghasilkan hasil terstruktur tanpa logika parsing pascapemrosesan terpisah
- Jika JSON schema dikirim bersama dokumen, output OCR akan dimasukkan ke
- Jika hanya membutuhkan konten ekstraksi mentah, gunakan OCR 4 apa adanya; jika perlu pemformatan ulang terstruktur, anotasi field domain, atau pemrosesan instruksi kustom, tambahkan parameter Document AI
Kanal ketersediaan dan cara memulai
- Mistral OCRv4 dan Document AI berbasis OCRv4 tersedia melalui API, Mistral Studio, Amazon SageMaker, dan Microsoft Foundry
- Dukungan Snowflake Parse Document akan segera tersedia
- Untuk organisasi yang perlu menjaga informasi sensitif tetap berada di dalam infrastrukturnya sendiri, OCR 4 juga menyediakan opsi self-hosting
- Sumber daya untuk memulai adalah sebagai berikut
- Getting Started with OCR 4 Cookbook: membahas ekstraksi pertama, pekerjaan dengan bounding box, dan klasifikasi blok
- OCR4 in Production webinar: demo dan tanya jawab pada 7 Juli pukul 18.00 CET
- Contact Sales: untuk meminta informasi tambahan
1 komentar
Pendapat Hacker News
US Postal Service selalu terasa seperti keajaiban teknis
Mereka bisa mengidentifikasi dan merutekan miliaran kiriman pos dengan teknologi yang jauh lebih primitif, dan alamat di AS sangat tidak standar sampai-sampai alamat yang sama bisa ditulis dengan banyak cara berbeda namun tetap sampai ke tempat yang sama
Mungkin ada banyak pengetahuan terbuka di bidang ini, tetapi melihat apa yang sudah dilakukan selama bertahun-tahun pada skala USPS membuat setiap pengumuman OCR terasa seperti masalah yang sebenarnya sudah terpecahkan
Itu terjadi pada tahun 1970-an, belum ada internet maupun basis data terpusat, tetapi layanan pos tetap berhasil mengantarkannya
Kemungkinan karena ayah saya sangat aktif dalam kegiatan sosial dan juga mengelola tim sepak bola remaja, jadi cukup dikenal di lingkungannya hanya dari namanya
Sekarang ini orang sering tidak bisa menemukan orang atau tempat tanpa bantuan ponsel, dan tukang pos pun tidak lagi banyak mengobrol
Rasanya surat seperti itu sekarang tidak akan lolos baik lewat proses teknis maupun mungkin lewat jaringan manusia
Setelah itu surat sampai ke kantor pos yang benar, sisanya ditangani para kurir pos pagi-pagi sekali
Cukup menyenangkan menebak arti sebuah alamat, dan terutama pegawai yang lebih tua sering tahu cerita mengapa suatu tempat ditulis dengan format alamat tertentu, atau bisa menebak alamat hanya dari nama penghuninya
Carmel-by-the-Sea tidak punya nomor jalan, dan alamat di Florida Keys sering kali cuma nomor penanda mil
Itu bisa tetap terkirim karena orang yang menangani rute tersebut sudah terbiasa
Saya penasaran apakah ada model terbuka yang fokus pada pengenalan pelat nomor
Saya memang menemukan beberapa model lama, tetapi penasaran apakah ada yang sedang dikembangkan baru seperti model OCR ini
Mungkin saya juga bisa langsung mencobanya sendiri untuk use case ini dan melihat performanya
Video di halaman yang ditautkan ternyata berbeda dari dugaan saya
Saya mengira Mistral adalah perusahaan AI Eropa, tetapi videonya direkam di San Francisco dan tiga orang yang muncul juga tidak terlihat seperti orang Eropa, jadi cukup mengejutkan
Tidak masalah jika memang organisasi global, hanya saja saya membayangkan kantor Paris dan aksen khas Eropa
Pertanyaannya banyak dan dompetnya sangat hemat, sementara orang Amerika berbeda
Mungkin juga ada engineering penjualan
Selisih waktunya 8–10 jam, jadi secara praktis memang tidak bisa dihindari
Perusahaan tempat saya dulu bekerja malah punya kantor di Vancouver, yang berada di zona waktu yang sama
Meskipun sebagian besar berbasis di Australia, kalau melihat urutan daftar kantor di https://www.blackmagicdesign.com/company/offices dan halaman perusahaannya, kesannya seperti perusahaan Amerika
Dalam hal itu mereka tampaknya dengan cerdas memanfaatkan dua sisi sekaligus: pendanaan Amerika dan talenta Eropa
Menarik melihat kira-kira model ini akan berada di peringkat mana dibanding https://github.com/baidu/Unlimited-OCR
Jika harganya 4 dolar per 1.000 halaman memang murah, tetapi versi-versi sebelumnya semua semacam “akurasi 98% berdasarkan 4 PDF benchmark internal”, dan pada praktiknya hasilnya kalah dari hampir semua alternatif di pasar, jadi saya agak enggan melakukan benchmark lagi
Kali ini juga mereka menonjolkan angka representatif dari benchmark internal sambil mengatakan bahwa OlmOCRBench dan OmniDocBench punya “keterbatasan yang diketahui”
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
Semua lab AI benar-benar harus berhenti memakai sumbu y yang dipotong pada grafik batang benchmark
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Saya mengujinya dalam Malayalam; tulisan tangan biasa terbaca akurat, tetapi gaya yang sedikit berbeda terdeteksi sebagai Kannada
Kalau perlu saya bisa memberi sampel, dan Sarvam menangani sampel yang sama dengan akurasi 99%, hanya menyisakan satu kesalahan teks
Misalnya pada Indian English, dokumen yang mencampur ungkapan India yang ditulis dalam alfabet Latin, dan dokumen dengan layout kompleks seperti gambar dan tabel
Saya memang tertarik pada layanan India, tetapi sejauh yang saya ingat harganya tampak agak mahal dari yang saya perkirakan
Tentu bisa saja ingatan saya keliru
Dibanding model OCR v3 sebelumnya pada bulan Desember, hampir tidak ada perbedaan yang dijelaskan selain bounding box, sementara harganya dua kali lipat: https://mistral.ai/news/mistral-ocr-3/
Waktu itu mereka memakai benchmark yang berbeda
“Catatan soal penggunaan di luar cakupan. OCR 4 adalah model pemahaman dokumen, bukan pengambil keputusan. Ini bukan untuk diagnosis medis, nasihat atau penilaian hukum, pengambilan keputusan finansial berisiko tinggi, sistem yang kritis terhadap keselamatan, pemrosesan real-time/sensitif latensi, atau input non-dokumen (audio mentah, video, dan sebagainya).”
Sudah kebayang ada manajer “inovatif” yang di rapat berikutnya akan bilang, “Oke, tapi bagaimana kalau dipakai untuk pengambilan keputusan finansial berisiko tinggi dengan input non-dokumen seperti foto dari ponsel?”
Saya berani jamin minggu depan ada seseorang di HN yang akan menulis “ide” ini di komentar
Ada puluhan model yang jauh lebih bagus untuk tugas tersebut, sementara hasil dari ini kemungkinan hanya akan buruk jika dibandingkan
Ini bukan model untuk menjawab pertanyaan, melainkan untuk konversi teks
Rasanya seperti cuma ingin memaksakan sudut pandang anti-AI
Mistral hanya lebih jujur soal hal ini, mungkin karena mereka tidak perlu atau tidak ingin memukau audiens dengan alat pengguna umum (chat) yang terlihat seperti ahli dalam segala hal
Bahkan alat seperti itu pun cukup sering sebenarnya hanyalah rangkaian beberapa model spesialis
Yang diinginkan di sini bisa dilakukan dengan beberapa skrip Python
Ubah prompt suara menjadi teks dengan Voxtral, lalu kirim ke Mistral Large 3 bersama system prompt tambahan agar ia membuat prompt OCR dan path file, setelah itu cari file dalam loop dan lempar ke OCR 3, lalu interpretasikan lagi dengan Mistral Large 3 untuk diubah menjadi keputusan
Susunan seperti ini umum, malah lebih jarang semua hal ditangani oleh satu model saja
Baru-baru ini saya mencoba OCR dengan Opus 4.8
Secara teknis itu bukan alat yang tepat, tetapi yang saya butuhkan cuma mengekstrak tanggal dari struk
Sekitar 20% tanggalnya salah, tetapi semuanya tetap dinilai dengan “confidence tinggi”
Mungkin saya memang seharusnya memakai model yang khusus untuk OCR
Rasanya bahkan alat OCR shareware yang dulu ikut dibundel dengan scanner hitam-putih pun akan lebih baik daripada tingkat kesalahan 20%
Kelihatannya mereka memakai alat OCR terpisah yang kuno, dan hasil pengujiannya juga buruk
Sebaliknya, di Gemini API modelnya melakukan OCR secara langsung dan akurasinya jauh lebih baik
Jauh lebih baik daripada model vision-language kecil 1~4B
Jika Opus gagal, kemungkinan besar sebagian besar model kecil seperti itu juga akan gagal
Baru-baru ini saya memindai ratusan PDF dengan campuran tulisan tangan terburuk memakai Opus 4.8, dan selain satu catatan yang bahkan saya sendiri tidak bisa baca, tingkat keberhasilannya 100%