Mistral OCR dirilis - API pemahaman dokumen terbaik

(mistral.ai)

13 poin oleh GN⁺ 2025-03-07 | 2 komentar | Bagikan ke WhatsApp

Mistral OCR adalah API pemahaman dokumen terbaik di dunia yang menawarkan kemampuan memahami dan menganalisis dokumen dengan lebih akurat dibanding model yang sudah ada
Mengekstrak teks, media, rumus, tabel dari PDF dan gambar lalu mengubahnya menjadi output terstruktur
API saat ini tersedia dengan harga 1000 halaman/1$ (biaya per halaman menjadi setengah saat pemrosesan batch)

Fitur utama Mistral OCR

Kemampuan memahami dokumen yang kompleks: menafsirkan tabel, gambar, rumus, hingga format LaTeX secara akurat
Dukungan multibahasa dan multimodal: mendukung beragam bahasa, font, dan skrip
Performa kelas terbaik di industri: mencatat akurasi lebih tinggi daripada model OCR lain
Kecepatan terbaik: mampu memproses 2000 halaman per menit pada satu node
Dokumen dapat digunakan sebagai prompt: mendukung output terstruktur seperti JSON
Menyediakan opsi on-premises (self-host): cocok bagi perusahaan yang ingin memproses dokumen rahasia

Memahami dokumen kompleks

Mistral OCR dapat menganalisis secara mendalam dokumen yang mencakup makalah ilmiah, grafik, rumus, tabel, gambar
Melalui notebook contoh, Anda dapat melihat bagaimana OCR mengekstrak teks dan gambar dari PDF (contoh)

Perbandingan performa (benchmark)

Mistral OCR mencatat skor tertinggi dalam performa keseluruhan saat dibandingkan dengan model OCR utama lainnya

Performa keseluruhan (Overall): 94.89 (lebih tinggi daripada model lain)
Performa analisis rumus (Math): 94.29 (lebih dari 7 poin di atas GPT-4o)
Performa pengenalan multibahasa: 89.55
Performa pemrosesan dokumen hasil pemindaian (Scanned): 98.96
Performa pengenalan tabel (Table): 96.12 (paling unggul dibanding model lain)

Dukungan multibahasa

Mistral OCR dapat memproses berbagai bahasa dan skrip dari seluruh dunia. Saat dibandingkan dengan model utama, Mistral OCR mencatat performa OCR terbaik di semua bahasa

Bahasa Rusia (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
Bahasa Prancis (fr): 99.20 (Azure 97.50, Google 96.36)
Bahasa Tionghoa (zh): 97.11 (Azure 91.40, Google 90.89)
Bahasa Jerman (de): 99.51 (Azure 98.39, Google 97.09)

Kecepatan pemrosesan tinggi

Mistral OCR lebih ringan daripada model OCR yang sudah ada, dan mampu memproses hingga 2000 halaman/menit pada satu node
Mendukung pembelajaran dan peningkatan berkelanjutan di lingkungan yang membutuhkan pemrosesan dokumen dalam jumlah besar

Menggunakan dokumen sebagai prompt (Doc-as-prompt)

Dapat mengekstrak informasi tertentu dari dokumen dan menghasilkan output terstruktur seperti JSON
Data yang diekstrak dapat dihubungkan ke proses AI lanjutan untuk otomasi
Contoh: mengekstrak pasal tertentu dari dokumen hukum lalu menghasilkan respons chatbot AI

Opsi on-premises (self-host)

Jika diperlukan pemrosesan dokumen rahasia di dalam perusahaan, self-hosting dimungkinkan
Cocok untuk institusi dan perusahaan yang mengutamakan privasi serta keamanan data

Kasus penggunaan utama

Digitalisasi riset ilmiah: mengubah makalah dan jurnal ke format yang dapat diproses AI untuk mempercepat kolaborasi penelitian
Pelestarian sejarah dan warisan budaya: museum dan organisasi nirlaba dapat mendigitalisasi dokumen bersejarah untuk dilestarikan dan dibagikan
Peningkatan layanan pelanggan: mengindeks manual dan dokumen untuk meningkatkan kecepatan respons pelanggan
Pemanfaatan AI untuk desain, pendidikan, dan dokumen hukum: mengindeks gambar teknik, materi kuliah, dokumen regulasi, dan lainnya untuk pencarian informasi berbasis AI

Mencoba Mistral OCR

Mistral OCR dapat dicoba gratis di Le Chat (Le Chat)
API dapat digunakan di la Plateforme (gunakan API)
Deployment on-premises dan solusi khusus untuk perusahaan juga tersedia (hubungi)

2 komentar

taeha 2025-03-13

Tidak ada pembahasan tentang performa bahasa Korea, tetapi setelah saya coba hasilnya tampak tidak buruk.

GN⁺ 2025-03-07

Komentar Hacker News

Ada pendapat bahwa ini "lumayan". Namun, halusinasi masih tetap terjadi
- Pada gambar yang diberikan sebagai contoh, teks pada blok tengah berhasil dikeluarkan dengan akurat
- Namun pada blok berikutnya, sebagian teks dari blok sebelumnya terulang, sebagian dari blok berikutnya salah ikut dimasukkan, dan kata-kata yang tidak ada malah dihasilkan
- Teks yang benar adalah "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
Sebuah benchmark untuk membandingkan performa Mistral dan Marker telah dijalankan sebagian
- Dari 375 sampel, hasil penilaian oleh LLM menunjukkan Mistral mendapat skor 4.32 dan Marker 4.41
- Marker dapat melakukan inferensi 20~120 halaman per detik di H100
- Sampel dan kode benchmark masing-masing dapat dilihat di Hugging Face dan GitHub
- Mistral OCR adalah model yang mengesankan, tetapi masalah OCR masih tetap sulit
Ada harapan bahwa seiring kemajuan teknologi OCR, membaca paper dan buku teks akan menjadi lebih mudah
- Referensi ke gambar bisa dihubungkan dengan gambar yang sebenarnya sehingga alur membaca tidak terganggu
- Konversi yang rapi ke HTML menjadi mungkin, sehingga definisi bisa diklik atau pertanyaan untuk memeriksa pemahaman bisa ditambahkan
- Ada juga kemungkinan Orbit SRS milik Andy Matuschak diintegrasikan secara otomatis ke PDF
Teknologi OCR hampir mencapai tahap di mana masalahnya dianggap terselesaikan
- Namun, di dunia bisnis masih ada kesenjangan besar antara output OCR mentah dan pemrosesan dokumen
- LLM dan VLM bukan sihir, dan mengharapkan otomatisasi 100% adalah hal yang tidak realistis
- Diperlukan pembangunan dataset, penyesuaian pipeline, deteksi ketidakpastian, serta perbaikan melalui campur tangan manusia
Ada pendapat bahwa untuk mengonversi buku teks medis dari PDF ke MD, hasil dari MinerU/PDF-Extract-Kit lebih baik
- Tautan Colab di artikel tidak berfungsi, tetapi ditemukan tautan yang berfungsi di dokumentasi
Ada pendapat bahwa hari ketika PDF bisa diedit berkat kemajuan teknologi akhirnya telah tiba
- Namun, masalah OCR untuk arsip PDF yang berisi data pribadi masih belum terselesaikan
Ada pendapat bahwa ini sangat cepat dan lebih akurat daripada Google, Claude, dan lainnya
- Harganya $1 per 1000 halaman, dan untuk batch ditetapkan per 2000 halaman
- Ada pendapat bahwa ini sangat bagus untuk mengubah PDF menjadi Markdown
Jika menggunakan VLM umum alih-alih model khusus, ada kelemahan berupa sulitnya menyesuaikan untuk kasus tertentu
- Misalnya, menggunakan Gemini untuk menambahkan alt text yang sangat spesifik ke Markdown hasil ekstraksi
- Biayanya 2~3 kali lebih mahal daripada Gemini Flash, tetapi peningkatan performanya dianggap penting
Ingin mencari penjelasan singkat tentang mengapa VLM OCR menimbulkan halusinasi