2 poin oleh GN⁺ 2025-12-20 | 1 komentar | Bagikan ke WhatsApp
  • Model OCR generasi berikutnya yang meningkatkan akurasi dan efisiensi pemrosesan dokumen secara bersamaan, dengan performa pengenalan tinggi pada berbagai jenis dokumen
  • Mencatat peningkatan performa keseluruhan sebesar 74% dibanding versi sebelumnya, dengan hasil unggul pada tulisan tangan, formulir, tabel kompleks, dan dokumen hasil pemindaian
  • Mendukung rekonstruksi tabel berbasis HTML dan output markdown sehingga informasi struktural dokumen juga dapat dipertahankan
  • $2 per 1.000 halaman, dengan diskon 50% untuk pemrosesan massal, menghadirkan efisiensi biaya
  • Teknologi OCR yang dapat dimanfaatkan secara luas, mulai dari pipeline dokumen enterprise berskala besar hingga workflow dokumen interaktif, dan muncul sebagai infrastruktur inti untuk pemanfaatan data berbasis AI generatif

Kinerja dan fitur utama

  • Mistral OCR 3 melakukan ekstraksi teks dan gambar tertanam dari berbagai dokumen dengan presisi tinggi
    • Mendukung output format markdown dan fitur rekonstruksi tabel HTML, sehingga dapat mengenali bukan hanya isi dokumen tetapi juga strukturnya
    • Ukuran model yang kecil memungkinkan layanan ini ditawarkan dengan biaya lebih rendah dibanding solusi pesaing, yaitu $2 per 1.000 halaman, atau $1 saat menggunakan Batch API
  • Model mistral-ocr-2512 dapat diintegrasikan melalui API, atau PDF dan gambar dapat dikonversi menjadi teks atau JSON terstruktur melalui UI Document AI Playground

Peningkatan performa dan benchmark

  • Dalam benchmark internal, model ini mencatat tingkat kemenangan 74% dibanding Mistral OCR 2
    • Pengujian dilakukan berdasarkan kasus bisnis nyata dari pelanggan, dan akurasi dievaluasi menggunakan fuzzy-match metric
  • Mencapai akurasi yang melampaui solusi pemrosesan dokumen enterprise dan OCR berbasis AI
Iklan

Area peningkatan utama

  • Pengenalan tulisan tangan: menafsirkan tulisan tangan, anotasi campuran, dan tulisan tangan di atas formulir cetak dengan akurat
  • Pemrosesan formulir: peningkatan pengenalan kotak, label, input tulisan tangan, dan layout kompleks
  • Dokumen pindai dan kompleks: memiliki ketahanan tinggi terhadap artefak kompresi, distorsi, resolusi rendah, dan noise latar belakang
  • Struktur tabel kompleks: mereproduksi tabel secara lengkap menggunakan tag HTML (colspan/rowspan), termasuk header, sel gabungan, serta hierarki multi-baris dan multi-kolom
  • Peningkatan performa menyeluruh dibanding Mistral OCR 2 di semua bahasa dan bentuk dokumen

Contoh penggunaan dan bidang aplikasi

  • Cocok untuk pipeline dokumen enterprise berskala besar maupun workflow dokumen interaktif
    • Mendukung konversi ke markdown setelah ekstraksi teks dan gambar, parsing otomatis formulir dan invoice, pembangunan pipeline pemahaman dokumen, serta digitalisasi tulisan tangan dan dokumen sejarah
  • Pelanggan awal menggunakannya untuk mengubah invoice menjadi field terstruktur, mendigitalisasi arsip perusahaan, mengekstrak teks dari laporan teknis dan ilmiah, serta meningkatkan pencarian enterprise
  • Tim Law dari IDC menyatakan, “OCR adalah teknologi fondasi bagi AI generatif dan AI agen, dan kemampuan ekstraksi teks yang sangat akurat dengan biaya rendah menentukan daya saing dalam pemanfaatan data”

Pendekatan akses dan kompatibilitas

  • Dapat langsung digunakan melalui API atau antarmuka Document AI Playground
  • Sepenuhnya kompatibel dengan Mistral OCR 2, sehingga mudah di-upgrade dari sistem yang sudah ada
  • Dokumentasi rinci tersedia di mistral.ai/docs

1 komentar

 
GN⁺ 2025-12-20
Komentar Hacker News
  • Setelah melihat video ini di Twitter, saya jadi bertanya-tanya kenapa Mistral tidak membandingkannya dengan model SoTA terbaru
    Akan bagus jika dibandingkan dengan model seperti Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, dan PaddleOCR

    • Dari sudut pandang seseorang yang sudah banyak mengerjakan ekstraksi dokumen, nada tweet itu memang agak mengganggu, tapi isi pesannya sendiri benar
      Mistral sedang membandingkannya dengan layanan computer vision biasa, bukan model berbasis VLM
      Yang pertama punya pemahaman dokumen yang lebih baik, sedangkan yang kedua memberikan bounding box yang akurat
      Pola kegagalannya juga berbeda — VLM bisa salah membaca satu kalimat penuh, sementara model vision biasanya hanya salah ketik pada level kata
    • Saya sempat klik tautannya, dan rasanya suasana Twitter sekarang sudah berubah jadi jauh lebih aneh dibanding dulu
    • Saya juga ingin melihat perbandingan dengan Qwen 3 VL 235B-A22B. Dalam pengalaman saya, model itu jauh lebih baik daripada MinerU
  • Dalam 3 bulan terakhir, muncul sangat banyak model OCR open-source
    Khususnya model dengan kurang dari 1B parameter yang juga berjalan baik di edge device
    Akan bagus kalau dibandingkan dengan model seperti paddleOCR-VL, olmOCR-2, chandra, dan dots.ocr
    Sayangnya hampir tidak ada leaderboard atau arena untuk OCR atau CV

    • Sekitar sebulan lalu ada proyek bernama ocrarena.ai
      Modelnya dibandingkan dengan format duel seperti llmarena, tapi Mistral masih belum diperbarui di sana
      Saat ini Gemini ada di peringkat atas
    • Kelebihan MistralOCR adalah kebijakan harga yang sederhana — $1 per 1.000 halaman, dengan API server-hosted tersedia
      OCR lain berbasis token sehingga sulit menghitung biaya sebenarnya
      Misalnya Gemini 3.0 flash terlihat punya harga yang mirip, tetapi dalam satuan token biaya nyatanya sekitar 3 kali lebih mahal
    • Saya sempat mencoba memasang paddleOCR, tetapi menyerah setelah dependensi PyTorch 12GB menimbulkan konflik versi
      Lalu saya memberi Claude akses root untuk memasangnya sebagai gantinya, dan dia tampaknya jauh lebih menikmati proses itu daripada saya
      Saya juga punya pengalaman serupa saat memasang open web UI, dan akhirnya saya menulis sendiri hanya fitur yang saya butuhkan dalam 100 baris HTML
      Saya berharap OCR juga bisa dibuat sesederhana itu
    • codesota.com/ocr juga layak dilihat
  • Mistral OCR 3 disebut cocok untuk pipeline perusahaan berskala besar, tetapi dengan akurasi 79% rasanya sulit dipercaya
    Dari sudut pandang pekerjaan jurnal ilmiah, kesalahan pengenalan seperti 2.9+0.5 dan 29+0.5 bisa sangat fatal
    Pada akhirnya verifikasi manusia tetap dibutuhkan di setiap tahap

    • Untuk kasus seperti ini, datalab.to lumayan bagus
    • 79% itu tampaknya bukan akurasi, melainkan angka win rate
  • Saya sedang mengerjakan proyek mengubah kamus Shipibo (bahasa pribumi Peru)-Spanyol menjadi kamus Shipibo-Inggris
    Kualitas scan PDF-nya buruk, dan OCR sering gagal karena layout dua kolom serta header/footer
    Pekerjaannya rumit karena saya harus memisahkan contoh kalimat Shipibo dan definisi bahasa Spanyol lalu menerjemahkannya hanya ke bahasa Inggris
    Setiap kali ada kabar OCR/LLM baru saya mencobanya, tetapi selalu berakhir mengecewakan

    • Saya penasaran apakah ada yang tertarik pada penelitian tradisi Ayahuasca
      Dalam budaya Shipibo, bukan orang biasa melainkan maestra yang meminum Ayahuasca untuk mendiagnosis penyakit
      Untuk tiap tanaman ada dieta (pantangan makan/puasa ritual), dengan pembatasan seperti tidak memakai sabun, tidak berhubungan seksual, dan tidak mengonsumsi garam
      Secara tradisional ini bisa berlangsung lebih dari setahun, meski kini sering dipersingkat menjadi beberapa minggu
      Saya terkesan melihat betapa dalamnya mereka meneliti pengobatan berbasis tanaman
  • Saya ingin mengubah buku teks matematika menjadi markdown dengan rumus LaTeX, tetapi belum ada model OCR yang benar-benar memuaskan
    Saya berencana mengujinya langsung di OCR playground milik Mistral

    • Saya telah memproses ribuan dokumen dengan model Gemini Pro 3 vision, dan sejauh ini itu jauh lebih akurat daripada OCR mana pun yang pernah saya pakai
      Rumus pun dikonversi ke LaTeX dengan sempurna
    • Tolong bagikan hasilnya nanti
  • Saya sedang mencari terjemahan dalam gambar (in-place translation)
    Mistral OCR3 berfokus pada ekstraksi data, jadi tidak cocok untuk kebutuhan saya
    Saya ingin teks pada artbook asing diterjemahkan dan ditampilkan langsung di atas gambar, tetapi layanan berbayar yang sudah ada gagal karena penempatan teks yang tidak standar
    Saat ini saya menerjemahkannya dengan menyorot layar memakai Google Lens, tetapi kurang nyaman
    Lens bawaan Chrome juga masih butuh pemilihan manual, jadi belum sepenuhnya otomatis
    Ada yang tahu kabar perkembangan fitur seperti ini?

    • Jika tidak masalah berbayar, DEEPL atau fitur terjemahan dokumen di Word cukup lumayan dipakai
  • Belakangan ini Mistral terasa hanya mengejar pinggiran fitur AI
    Mereka tampak tertinggal dibanding OAI, Google, dan Anthropic, dan investasi tingkat UE juga kelihatannya kurang

    • Fitur praktis seperti pemrosesan formulir justru adalah hal yang benar-benar dibutuhkan orang
      Jauh lebih bernilai daripada membuat meme
    • Menyalin mentah-mentah apa yang dilakukan perusahaan terdepan itu berisiko
      Karena model bisnis belum benar-benar mapan, masuk akal jika Mistral fokus pada kualitas model inti
      Menjaga talenta di UE sambil membuat model yang cukup bagus adalah target yang realistis
    • UE sedang sangat ‘berinvestasi’ pada Mistral — separuhnya lewat pajak, sisanya dipakai untuk membahas regulasi
    • Regulasi UE menghambat langkah mereka, jadi pada akhirnya ada kemungkinan besar mereka akan diakuisisi perusahaan AS
    • Meski begitu, menurut saya ini tetap lebih baik daripada sekadar meniru persis apa yang dilakukan orang lain
  • Saya melihat penilaian bahwa performa Mistral kalah dari berbagai OCR open-source seperti Paddle, MinerU, MonkeyOCR, dan lainnya
    Lihat codesota.com/ocr

  • Saya sedang menguji Mistral sebagai pengganti MathPix
    Skrip Python ini adalah prototipe yang mengambil gambar clipboard setelah snipping di Windows, mengirimkannya ke Mistral, lalu secara otomatis menempelkan hasil Markdown

  • Masalah terbesar Mistral adalah tidak merespons pertanyaan pelanggan
    Bersembunyi di balik “hubungi untuk harga” membuatnya tidak ada artinya meskipun lebih baik daripada SoTA

    • Saya juga sangat tidak suka tatap muka dengan sales
      Saya lebih memilih layanan yang mungkin lebih mahal dan performanya lebih rendah asalkan tidak perlu melewati proses seperti itu