1 poin oleh GN⁺ 3 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Mistral OCR 4 yang dirilis oleh Mistral AI adalah model pemahaman dokumen yang melampaui OCR yang hanya mengekstrak teks dari dokumen, dengan juga mengembalikan bounding box, klasifikasi blok, hingga skor kepercayaan inline
  • Mendukung 170 bahasa dalam 10 kelompok bahasa serta self-hosting dalam satu container, sehingga cocok untuk pipeline pengumpulan dokumen di organisasi yang mengutamakan kedaulatan data dan kepatuhan
  • Dalam evaluasi preferensi manusia, model ini mencatat tingkat kemenangan 72% rata-rata, dan juga meraih skor tinggi pada evaluasi publik maupun internal seperti OlmOCRBench 85.20 dan OmniDocBench 93.07
  • Namun, karena ada keterbatasan penilaian seperti kesalahan ground truth, notasi rumus yang ekuivalen, urutan pembacaan multi-kolom, dan penanganan header/footer, skor benchmark perlu dilihat bersama evaluasi dokumen nyata
  • API dihargai $4 per 1.000 halaman, Batch API $2, dan Document AI $5; ekstraksi mentah cukup dengan OCR 4, tetapi jika membutuhkan JSON terstruktur, anotasi gambar, atau prompt kustom maka jalur Document AI lebih sesuai

Representasi dokumen terstruktur yang dikembalikan OCR 4

  • OCR 4 mengekstrak dan menata konten dari berbagai dokumen, dan tidak berhenti pada teks bersih serta konversi tabel seperti generasi sebelumnya, tetapi juga menyediakan representasi terstruktur
  • Setiap blok mencakup bounding box, tipe blok, serta skor kepercayaan inline pada tingkat halaman dan kata
    • Sistem downstream dapat memanfaatkan bukan hanya isi dokumen, tetapi juga posisi, peran, dan tingkat kepercayaan tiap elemen
  • Alur pemanfaatan utamanya adalah sebagai berikut
    • Chunking berbasis unit semantik untuk RAG: menggunakan blok yang sudah dirapikan dan diklasifikasikan sebagai unit pencarian
    • Primitive struktur untuk agen: mendukung pengisian formulir, pemrosesan invoice, dan pemeriksaan kepatuhan
    • Konten terstruktur untuk konektor: menyediakan output bertipe yang konsisten untuk pipeline ingest dan indexing

Format, bahasa, dan cara deployment

  • Format input mencakup format dokumen enterprise yang umum seperti PDF, DOC, PPT, dan OpenDocument
  • Mendukung 170 bahasa dalam 10 kelompok bahasa, termasuk bahasa spesialis dan bahasa dengan sumber daya rendah yang sering menjadi titik lemah banyak sistem
  • Model ini cukup kecil untuk dideploy dalam satu container, sehingga cocok untuk lingkungan yang sensitif biaya dan membutuhkan throughput tinggi
  • Mendukung eksekusi self-hosting penuh, sehingga organisasi dengan kebutuhan kedaulatan data dapat menjaga data dokumen tetap berada di dalam infrastrukturnya sendiri
  • Deployment yang dikelola sendiri tersedia untuk pelanggan enterprise

Harga dan jalur penggunaan

  • Developer dapat mengintegrasikan model lewat API, dan tim dapat menggunakan engine yang sama sebagai aplikasi no-code melalui Document AI di Mistral Studio
  • Harganya adalah sebagai berikut
    • OCR 4 API: $4 per 1.000 halaman
    • Dengan diskon 50% Batch API: $2 per 1.000 halaman
    • Document AI: $5 per 1.000 halaman
  • OCR 4 diintegrasikan sebagai komponen ingest dalam Mistral Search Toolkit, untuk menyediakan input yang dapat dikutip bagi workflow ingest, retrieval, dan evaluasi untuk RAG serta pencarian enterprise

Hasil evaluasi dan keterbatasan benchmark

  • Evaluasi OCR 4 dilakukan dengan membandingkannya terhadap model OCR AI-native, model frontier serbaguna, layanan dokumen enterprise, dan Mistral OCR 3
  • Evaluasi preferensi manusia disusun agar mencerminkan penggunaan nyata dengan lebih dari 600 dokumen dalam lebih dari 12 bahasa, dan anotator independen membandingkan secara blind output tiap sistem pesaing dengan output OCR 4 per dokumen
    • Anotator lebih sering memilih OCR 4 pada sebagian besar dokumen dibanding semua sistem yang diuji
    • Tingkat kemenangan rata-ratanya adalah 72%
  • Pada OlmOCRBench publik, OCR 4 mencatat skor keseluruhan tertinggi di antara model yang diuji, yaitu 85.20
  • Pada Crawl Multilingual evaluation internal, model ini mencatat .98, unggul atas solusi AI-native dan enterprise
  • Skor OmniDocBench adalah 93.07, tetapi baik OlmOCRBench maupun OmniDocBench memiliki keterbatasan yang sudah diketahui dalam metode penilaian beberapa output
  • Sebagian besar ketidaksesuaian yang diaudit muncul bukan karena kesalahan model, melainkan dari cara perbandingan benchmark dilakukan
    • Kesalahan ground truth: anotasi referensi bisa memuat teks yang hilang atau berlebih, transkripsi area yang tertutup, atau typo
    • Notasi rumus ekuivalen: bahkan jika hasil render LaTeX sama, string yang berbeda tetap dihitung sebagai ketidakcocokan
    • Pemecahan rumus: kecocokan terhadap jawaban dapat goyah tergantung apakah rumus diekspor sebagai satu kesatuan atau dibagi menjadi beberapa fragmen inline
    • Urutan baca multi-kolom: kata yang terbelah di batas kolom dan asumsi urutan kolom dapat membuat ekstraksi yang benar tetap dinilai gagal
    • Atribusi tipe blok: meski header dan footer dihapus dari output, pengujian masih bisa salah menandai string seperti judul halaman
  • Artefak semacam ini terkonsentrasi pada dokumen matematika, sains, dan multi-kolom, dan lebih sering memberi penalti pada output yang benar daripada memberi imbalan pada output yang salah
  • Semua skor pesaing merupakan hasil reproduksi internal, sehingga lebih aman melakukan evaluasi langsung dengan dokumen sendiri sebelum adopsi nyata

Performa multibahasa

  • Dalam evaluasi multibahasa internal, OCR 4 unggul di semua 8 kelompok bahasa
    • English
    • Western Europe
    • Eastern Europe
    • Middle Eastern
    • Chinese
    • East Asian
    • Southeast Asian
    • Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu, dan bahasa spesialis lainnya
  • Kesenjangannya paling besar pada bahasa spesialis dan bahasa dengan sumber daya rendah, dan OCR 4 tetap mempertahankan akurasi tinggi bahkan di area tempat banyak sistem pesaing mengalami penurunan tajam

Use case yang direkomendasikan dan cakupan yang dikecualikan

  • OCR 4 mendukung baik pipeline throughput tinggi maupun workflow dokumen interaktif
  • Use case yang direkomendasikan adalah sebagai berikut
    • Parsing dan ekstraksi dokumen untuk dokumen multibahasa yang kompleks
    • Pembuatan konten terstruktur, terklasifikasi, dan dapat dikutip untuk RAG
    • Input pipeline pencarian yang digabungkan dengan Search Toolkit
    • Workflow agen seperti pengisian formulir, pemrosesan invoice, dan pemeriksaan kepatuhan
    • Pipeline data terstruktur berbasis verifikasi manusia yang memanfaatkan skor kepercayaan
    • Komponen sumber data untuk pencarian enterprise dan knowledge base
  • Pengguna awal sudah menerapkan OCR 4 untuk konversi field terstruktur pada invoice, digitalisasi arsip perusahaan, ekstraksi teks bersih dari laporan teknis dan ilmiah, serta pencarian enterprise
  • OCR 4 adalah model pemahaman dokumen dan bukan pengambil keputusan
    • Model ini tidak ditujukan untuk diagnosis medis, nasihat atau penilaian hukum, keputusan finansial berisiko tinggi, sistem yang kritikal terhadap keselamatan, pemrosesan real-time atau sensitif latensi, maupun input non-dokumen seperti audio dan video mentah

Kriteria memilih OCR 4 API dan Document AI

  • OCR 4 disediakan melalui satu endpoint API, dan semua request menjalankan model OCR dasar yang sama
  • Respons default selalu mencakup konten hasil ekstraksi, bounding box, tipe blok, skor kepercayaan, dan teks terstruktur Markdown
  • Mode ekstraksi murni cocok untuk situasi berikut
    • Menanamkan ekstraksi dokumen yang cepat dan akurat langsung ke aplikasi, agen, atau pipeline data
    • Menyusun logika pascapemrosesan kustom dengan memanfaatkan langsung respons mentah, bounding box, tipe blok, dan skor kepercayaan
    • Ingest throughput tinggi dan batch dengan Batch API untuk mengendalikan throughput dan biaya
    • Self-hosting yang disesuaikan dengan kebutuhan ketat soal privasi data, kedaulatan, dan kepatuhan
  • Fitur Document AI diaktifkan dengan menambahkan parameter pada endpoint yang sama
    • Jika JSON schema dikirim bersama dokumen, output OCR akan dimasukkan ke mistral-small-2603 untuk menghasilkan JSON terstruktur yang sesuai dengan spesifikasi yang ditentukan
    • Jika schema anotasi gambar dikirim, panggilan tambahan ke vision-language model akan menghasilkan JSON terstruktur untuk setiap gambar yang terdeteksi
    • Prompt kustom dapat digunakan bersama JSON schema untuk mengarahkan interpretasi atau ringkasan atas konten hasil ekstraksi dari seluruh dokumen
    • Pengguna bisnis, tim solusi, dan proyek pilot dapat menghasilkan hasil terstruktur tanpa logika parsing pascapemrosesan terpisah
  • Jika hanya membutuhkan konten ekstraksi mentah, gunakan OCR 4 apa adanya; jika perlu pemformatan ulang terstruktur, anotasi field domain, atau pemrosesan instruksi kustom, tambahkan parameter Document AI

Kanal ketersediaan dan cara memulai

  • Mistral OCRv4 dan Document AI berbasis OCRv4 tersedia melalui API, Mistral Studio, Amazon SageMaker, dan Microsoft Foundry
  • Dukungan Snowflake Parse Document akan segera tersedia
  • Untuk organisasi yang perlu menjaga informasi sensitif tetap berada di dalam infrastrukturnya sendiri, OCR 4 juga menyediakan opsi self-hosting
  • Sumber daya untuk memulai adalah sebagai berikut

1 komentar

 
GN⁺ 3 jam lalu
Pendapat Hacker News
  • US Postal Service selalu terasa seperti keajaiban teknis
    Mereka bisa mengidentifikasi dan merutekan miliaran kiriman pos dengan teknologi yang jauh lebih primitif, dan alamat di AS sangat tidak standar sampai-sampai alamat yang sama bisa ditulis dengan banyak cara berbeda namun tetap sampai ke tempat yang sama
    Mungkin ada banyak pengetahuan terbuka di bidang ini, tetapi melihat apa yang sudah dilakukan selama bertahun-tahun pada skala USPS membuat setiap pengumuman OCR terasa seperti masalah yang sebenarnya sudah terpecahkan

    • Ayah saya pernah menerima surat dari Aljazair yang di amplopnya hanya tertulis tiga kata: nama, “Créteil” (kota berpenduduk sekitar 100 ribu tempat ia tinggal saat itu), dan “France”
      Itu terjadi pada tahun 1970-an, belum ada internet maupun basis data terpusat, tetapi layanan pos tetap berhasil mengantarkannya
      Kemungkinan karena ayah saya sangat aktif dalam kegiatan sosial dan juga mengelola tim sepak bola remaja, jadi cukup dikenal di lingkungannya hanya dari namanya
      Sekarang ini orang sering tidak bisa menemukan orang atau tempat tanpa bantuan ponsel, dan tukang pos pun tidak lagi banyak mengobrol
      Rasanya surat seperti itu sekarang tidak akan lolos baik lewat proses teknis maupun mungkin lewat jaringan manusia
    • Saya dulu pernah kerja paruh waktu di layanan pos Denmark, dan penyortiran otomatis hanya sampai kode pos
      Setelah itu surat sampai ke kantor pos yang benar, sisanya ditangani para kurir pos pagi-pagi sekali
      Cukup menyenangkan menebak arti sebuah alamat, dan terutama pegawai yang lebih tua sering tahu cerita mengapa suatu tempat ditulis dengan format alamat tertentu, atau bisa menebak alamat hanya dari nama penghuninya
    • Tom Scott punya video bagus tentang topik ini: https://www.youtube.com/watch?v=XxCha4Kez9c
    • Ada banyak pengecualian aneh dalam alamat AS
      Carmel-by-the-Sea tidak punya nomor jalan, dan alamat di Florida Keys sering kali cuma nomor penanda mil
      Itu bisa tetap terkirim karena orang yang menangani rute tersebut sudah terbiasa
    • Kalau memakai standar alamat India sebagai patokan, ketidakstandaran alamat AS malah terasa lucu
  • Saya penasaran apakah ada model terbuka yang fokus pada pengenalan pelat nomor
    Saya memang menemukan beberapa model lama, tetapi penasaran apakah ada yang sedang dikembangkan baru seperti model OCR ini
    Mungkin saya juga bisa langsung mencobanya sendiri untuk use case ini dan melihat performanya

  • Video di halaman yang ditautkan ternyata berbeda dari dugaan saya
    Saya mengira Mistral adalah perusahaan AI Eropa, tetapi videonya direkam di San Francisco dan tiga orang yang muncul juga tidak terlihat seperti orang Eropa, jadi cukup mengejutkan
    Tidak masalah jika memang organisasi global, hanya saja saya membayangkan kantor Paris dan aksen khas Eropa

    • Sayangnya pelanggan Eropa adalah pelanggan yang sulit menghasilkan uang
      Pertanyaannya banyak dan dompetnya sangat hemat, sementara orang Amerika berbeda
    • Perusahaan teknologi Eropa yang sudah punya skala tertentu biasanya punya kantor di pantai barat AS, setidaknya untuk penjualan
      Mungkin juga ada engineering penjualan
      Selisih waktunya 8–10 jam, jadi secara praktis memang tidak bisa dihindari
      Perusahaan tempat saya dulu bekerja malah punya kantor di Vancouver, yang berada di zona waktu yang sama
    • Blackmagic Design juga mirip
      Meskipun sebagian besar berbasis di Australia, kalau melihat urutan daftar kantor di https://www.blackmagicdesign.com/company/offices dan halaman perusahaannya, kesannya seperti perusahaan Amerika
    • Setahu saya, sebagian besar tim pendiri memulai karier di perusahaan AS seperti Meta, dan investor utamanya juga VC Amerika
      Dalam hal itu mereka tampaknya dengan cerdas memanfaatkan dua sisi sekaligus: pendanaan Amerika dan talenta Eropa
    • Bahkan ada bendera Amerika yang dipasang tinggi di latar belakang
  • Menarik melihat kira-kira model ini akan berada di peringkat mana dibanding https://github.com/baidu/Unlimited-OCR

  • Jika harganya 4 dolar per 1.000 halaman memang murah, tetapi versi-versi sebelumnya semua semacam “akurasi 98% berdasarkan 4 PDF benchmark internal”, dan pada praktiknya hasilnya kalah dari hampir semua alternatif di pasar, jadi saya agak enggan melakukan benchmark lagi
    Kali ini juga mereka menonjolkan angka representatif dari benchmark internal sambil mengatakan bahwa OlmOCRBench dan OmniDocBench punya “keterbatasan yang diketahui”
    https://getomni.ai/blog/benchmarking-open-source-models-for-ocr

    • Kesimpulannya sama, tetapi setelah saya menjalankan beberapa sampel sendiri, memang terlihat ada peningkatan nyata sejak versi Desember 2025
  • Semua lab AI benar-benar harus berhenti memakai sumbu y yang dipotong pada grafik batang benchmark
    https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539

  • Saya mengujinya dalam Malayalam; tulisan tangan biasa terbaca akurat, tetapi gaya yang sedikit berbeda terdeteksi sebagai Kannada
    Kalau perlu saya bisa memberi sampel, dan Sarvam menangani sampel yang sama dengan akurasi 99%, hanya menyisakan satu kesalahan teks

    • Saya penasaran dengan pengalaman orang yang pernah memakai Sarvam di luar bahasa-bahasa India
      Misalnya pada Indian English, dokumen yang mencampur ungkapan India yang ditulis dalam alfabet Latin, dan dokumen dengan layout kompleks seperti gambar dan tabel
      Saya memang tertarik pada layanan India, tetapi sejauh yang saya ingat harganya tampak agak mahal dari yang saya perkirakan
      Tentu bisa saja ingatan saya keliru
  • Dibanding model OCR v3 sebelumnya pada bulan Desember, hampir tidak ada perbedaan yang dijelaskan selain bounding box, sementara harganya dua kali lipat: https://mistral.ai/news/mistral-ocr-3/
    Waktu itu mereka memakai benchmark yang berbeda

  • “Catatan soal penggunaan di luar cakupan. OCR 4 adalah model pemahaman dokumen, bukan pengambil keputusan. Ini bukan untuk diagnosis medis, nasihat atau penilaian hukum, pengambilan keputusan finansial berisiko tinggi, sistem yang kritis terhadap keselamatan, pemrosesan real-time/sensitif latensi, atau input non-dokumen (audio mentah, video, dan sebagainya).”
    Sudah kebayang ada manajer “inovatif” yang di rapat berikutnya akan bilang, “Oke, tapi bagaimana kalau dipakai untuk pengambilan keputusan finansial berisiko tinggi dengan input non-dokumen seperti foto dari ponsel?”
    Saya berani jamin minggu depan ada seseorang di HN yang akan menulis “ide” ini di komentar

    • Saya tidak paham kenapa harus sengaja melakukan itu
      Ada puluhan model yang jauh lebih bagus untuk tugas tersebut, sementara hasil dari ini kemungkinan hanya akan buruk jika dibandingkan
      Ini bukan model untuk menjawab pertanyaan, melainkan untuk konversi teks
      Rasanya seperti cuma ingin memaksakan sudut pandang anti-AI
    • Semua perusahaan AI sedang membuat model terspesialisasi yang sangat kuat untuk satu tugas tertentu
      Mistral hanya lebih jujur soal hal ini, mungkin karena mereka tidak perlu atau tidak ingin memukau audiens dengan alat pengguna umum (chat) yang terlihat seperti ahli dalam segala hal
      Bahkan alat seperti itu pun cukup sering sebenarnya hanyalah rangkaian beberapa model spesialis
      Yang diinginkan di sini bisa dilakukan dengan beberapa skrip Python
      Ubah prompt suara menjadi teks dengan Voxtral, lalu kirim ke Mistral Large 3 bersama system prompt tambahan agar ia membuat prompt OCR dan path file, setelah itu cari file dalam loop dan lempar ke OCR 3, lalu interpretasikan lagi dengan Mistral Large 3 untuk diubah menjadi keputusan
      Susunan seperti ini umum, malah lebih jarang semua hal ditangani oleh satu model saja
    • “Kami menyerahkan keputusan finansial penting ke perangkat lunak OCR, dan Anda tidak akan percaya apa yang terjadi setelahnya”
  • Baru-baru ini saya mencoba OCR dengan Opus 4.8
    Secara teknis itu bukan alat yang tepat, tetapi yang saya butuhkan cuma mengekstrak tanggal dari struk
    Sekitar 20% tanggalnya salah, tetapi semuanya tetap dinilai dengan “confidence tinggi”
    Mungkin saya memang seharusnya memakai model yang khusus untuk OCR

    • Rasanya ekstraksi tanggal dari struk sudah hampir jadi masalah yang terselesaikan sejak sekitar 30 tahun lalu
      Rasanya bahkan alat OCR shareware yang dulu ikut dibundel dengan scanner hitam-putih pun akan lebih baik daripada tingkat kesalahan 20%
    • Saya tidak tahu soal Opus, tetapi OCR pada produk langganan Gemini sepertinya bukan dikerjakan langsung oleh modelnya
      Kelihatannya mereka memakai alat OCR terpisah yang kuno, dan hasil pengujiannya juga buruk
      Sebaliknya, di Gemini API modelnya melakukan OCR secara langsung dan akurasinya jauh lebih baik
    • Opus sangat bagus dalam OCR
      Jauh lebih baik daripada model vision-language kecil 1~4B
      Jika Opus gagal, kemungkinan besar sebagian besar model kecil seperti itu juga akan gagal
    • Saya sulit percaya dengan cerita ini
      Baru-baru ini saya memindai ratusan PDF dengan campuran tulisan tangan terburuk memakai Opus 4.8, dan selain satu catatan yang bahkan saya sendiri tidak bisa baca, tingkat keberhasilannya 100%