39 poin oleh GN⁺ 2025-02-15 | 1 komentar | Bagikan ke WhatsApp
  • Sepenuhnya gratis dan open source. Tidak ada langganan/fitur berbayar/kode tersembunyi
  • Dapat diterapkan secara fleksibel, mulai dari pemrosesan berkualitas tinggi untuk naskah yang menantang hingga pengenalan teks penuh massal untuk materi cetak
  • Dukungan anotasi tata letak dan teks yang kuat
    • Menggunakan editor LAREX untuk memberi anotasi manual, memperbaiki, atau membandingkan elemen tata letak dan teks
  • Sepenuhnya kompatibel dengan ekosistem OCR-D
  • Dirancang dengan mempertimbangkan kemudahan penggunaan: dapat membuat workflow OCR yang kompleks melalui UI tanpa perlu menggunakan kode/CLI
  • Pengembangan lintas platform yang mudah: dapat dijalankan dengan Docker dan satu perintah, terlepas dari jenis OS

1 komentar

 
GN⁺ 2025-02-15
Komentar Hacker News
  • Pipeline segmentasi yang kompleks memang diperlukan beberapa tahun lalu, tetapi sekarang penuh error dan menghilangkan konteks penting dari model. Untuk beralih ke tulisan tangan, konteks itu diperlukan

    • Untuk menguraikan tulisan tangan historis, para ahli akan mengatakan bahwa seluruh dokumen diperlukan
    • Harus menuntaskan pengenalan teks, bukan sekadar pengenalan karakter
    • Menilai model dengan CER bukan pendekatan yang baik
    • Pengenalan teks sedang mengulangi kesalahan machine translation dari 15 tahun lalu
  • OCR4all adalah perangkat lunak untuk pemulihan dan pengenalan teks digital dari bahan cetak awal era modern

    • Jenis cetak yang kompleks dan tata letak yang tidak seragam menguji kemampuan perangkat lunak pengenalan teks umum
    • Tampaknya dibangun di atas Calamari-OCR
  • OCR4all dengan jelas dan intuitif menangani kebutuhan pengguna nonteknis

    • Ada petunjuk untuk membuka terminal di Linux dan mengetik perintah
    • Jadi terasa meragukan bagaimana ini membantu pengguna nonteknis
  • Vision Framework milik Apple menyediakan pustaka pengenalan teks yang lebih cepat dan akurat daripada Tesseract

    • Dapat menangani hampir semua format gambar
    • Menulis alat CLI sederhana dan wrapper Python
  • Menggabungkan Tesseract dan LLM untuk memperbaiki error dan menyempurnakan format adalah titik optimal saat ini untuk kecepatan/efisiensi/akurasi

    • Teks prompt bahasa Inggris dapat diedit untuk memprioritaskan aspek tertentu dari dokumen masukan
  • Mengembangkan API OCR dengan dukungan AI

    • Menggabungkan Tesseract dan Poppler-utils untuk mengekstrak segmen dokumen secara cerdas
    • Dapat dengan mudah diperluas ke berbagai model Vision LLM
    • Menghasilkan API agen AI lengkap sebagai container Dockerized
  • Workflow ini ditujukan untuk mendigitalkan dokumen cetak historis

    • Berkaitan dengan pelestarian pengumuman lama yang dicetak dalam jenis huruf blackletter
  • OCR4all menyediakan workflow pengenalan teks otomatis dengan menggabungkan berbagai solusi open source

    • Tampaknya berbasis OCR-D, yang dibangun di atas Tesseract, Kraken, DUP-ocropy, Calamari-OCR
    • Terlihat sebagai alternatif open source untuk Transkribus
    • eScriptorium juga merupakan alternatif lain
  • Ada rasa penasaran apakah ini mesin OCR SOTA baru atau alat yang menggunakan mesin lain yang sudah dikenal

    • Akan lebih baik jika landing page-nya lebih jelas
  • OCR yang sempat dianggap sudah sebagian besar diselesaikan oleh Tesseract, tetapi ada yang sedang mencari pustaka atau implementasi untuk kompresi MRC pada PDF hasil

    • Produk komersial mahal, dan memisahkan, mengompresi, lalu menggabungkan kembali layer gambar adalah masalah yang sulit