Mistral OCR dirilis - API pemahaman dokumen terbaik
(mistral.ai)- Mistral OCR adalah API pemahaman dokumen terbaik di dunia yang menawarkan kemampuan memahami dan menganalisis dokumen dengan lebih akurat dibanding model yang sudah ada
- Mengekstrak teks, media, rumus, tabel dari PDF dan gambar lalu mengubahnya menjadi output terstruktur
- API saat ini tersedia dengan harga 1000 halaman/1$ (biaya per halaman menjadi setengah saat pemrosesan batch)
Fitur utama Mistral OCR
- Kemampuan memahami dokumen yang kompleks: menafsirkan tabel, gambar, rumus, hingga format LaTeX secara akurat
- Dukungan multibahasa dan multimodal: mendukung beragam bahasa, font, dan skrip
- Performa kelas terbaik di industri: mencatat akurasi lebih tinggi daripada model OCR lain
- Kecepatan terbaik: mampu memproses 2000 halaman per menit pada satu node
- Dokumen dapat digunakan sebagai prompt: mendukung output terstruktur seperti JSON
- Menyediakan opsi on-premises (self-host): cocok bagi perusahaan yang ingin memproses dokumen rahasia
Memahami dokumen kompleks
- Mistral OCR dapat menganalisis secara mendalam dokumen yang mencakup makalah ilmiah, grafik, rumus, tabel, gambar
- Melalui notebook contoh, Anda dapat melihat bagaimana OCR mengekstrak teks dan gambar dari PDF (contoh)
Perbandingan performa (benchmark)
Mistral OCR mencatat skor tertinggi dalam performa keseluruhan saat dibandingkan dengan model OCR utama lainnya
- Performa keseluruhan (Overall): 94.89 (lebih tinggi daripada model lain)
- Performa analisis rumus (Math): 94.29 (lebih dari 7 poin di atas GPT-4o)
- Performa pengenalan multibahasa: 89.55
- Performa pemrosesan dokumen hasil pemindaian (Scanned): 98.96
- Performa pengenalan tabel (Table): 96.12 (paling unggul dibanding model lain)
Dukungan multibahasa
Mistral OCR dapat memproses berbagai bahasa dan skrip dari seluruh dunia. Saat dibandingkan dengan model utama, Mistral OCR mencatat performa OCR terbaik di semua bahasa
- Bahasa Rusia (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
- Bahasa Prancis (fr): 99.20 (Azure 97.50, Google 96.36)
- Bahasa Tionghoa (zh): 97.11 (Azure 91.40, Google 90.89)
- Bahasa Jerman (de): 99.51 (Azure 98.39, Google 97.09)
Kecepatan pemrosesan tinggi
- Mistral OCR lebih ringan daripada model OCR yang sudah ada, dan mampu memproses hingga 2000 halaman/menit pada satu node
- Mendukung pembelajaran dan peningkatan berkelanjutan di lingkungan yang membutuhkan pemrosesan dokumen dalam jumlah besar
Menggunakan dokumen sebagai prompt (Doc-as-prompt)
- Dapat mengekstrak informasi tertentu dari dokumen dan menghasilkan output terstruktur seperti JSON
- Data yang diekstrak dapat dihubungkan ke proses AI lanjutan untuk otomasi
- Contoh: mengekstrak pasal tertentu dari dokumen hukum lalu menghasilkan respons chatbot AI
Opsi on-premises (self-host)
- Jika diperlukan pemrosesan dokumen rahasia di dalam perusahaan, self-hosting dimungkinkan
- Cocok untuk institusi dan perusahaan yang mengutamakan privasi serta keamanan data
Kasus penggunaan utama
- Digitalisasi riset ilmiah: mengubah makalah dan jurnal ke format yang dapat diproses AI untuk mempercepat kolaborasi penelitian
- Pelestarian sejarah dan warisan budaya: museum dan organisasi nirlaba dapat mendigitalisasi dokumen bersejarah untuk dilestarikan dan dibagikan
- Peningkatan layanan pelanggan: mengindeks manual dan dokumen untuk meningkatkan kecepatan respons pelanggan
- Pemanfaatan AI untuk desain, pendidikan, dan dokumen hukum: mengindeks gambar teknik, materi kuliah, dokumen regulasi, dan lainnya untuk pencarian informasi berbasis AI
Mencoba Mistral OCR
- Mistral OCR dapat dicoba gratis di Le Chat (Le Chat)
- API dapat digunakan di la Plateforme (gunakan API)
- Deployment on-premises dan solusi khusus untuk perusahaan juga tersedia (hubungi)
2 komentar
Tidak ada pembahasan tentang performa bahasa Korea, tetapi setelah saya coba hasilnya tampak tidak buruk.
Komentar Hacker News
Ada pendapat bahwa ini "lumayan". Namun, halusinasi masih tetap terjadi
Sebuah benchmark untuk membandingkan performa Mistral dan Marker telah dijalankan sebagian
Ada harapan bahwa seiring kemajuan teknologi OCR, membaca paper dan buku teks akan menjadi lebih mudah
Teknologi OCR hampir mencapai tahap di mana masalahnya dianggap terselesaikan
Ada pendapat bahwa untuk mengonversi buku teks medis dari PDF ke MD, hasil dari MinerU/PDF-Extract-Kit lebih baik
Ada pendapat bahwa hari ketika PDF bisa diedit berkat kemajuan teknologi akhirnya telah tiba
Ada pendapat bahwa ini sangat cepat dan lebih akurat daripada Google, Claude, dan lainnya
Jika menggunakan VLM umum alih-alih model khusus, ada kelemahan berupa sulitnya menyesuaikan untuk kasus tertentu
Ingin mencari penjelasan singkat tentang mengapa VLM OCR menimbulkan halusinasi