OCR4all - OCR untuk Semua Orang

(ocr4all.org)

39 poin oleh GN⁺ 2025-02-15 | 1 komentar | Bagikan ke WhatsApp

Sepenuhnya gratis dan open source. Tidak ada langganan/fitur berbayar/kode tersembunyi
Dapat diterapkan secara fleksibel, mulai dari pemrosesan berkualitas tinggi untuk naskah yang menantang hingga pengenalan teks penuh massal untuk materi cetak
Dukungan anotasi tata letak dan teks yang kuat
- Menggunakan editor LAREX untuk memberi anotasi manual, memperbaiki, atau membandingkan elemen tata letak dan teks
Sepenuhnya kompatibel dengan ekosistem OCR-D
Dirancang dengan mempertimbangkan kemudahan penggunaan: dapat membuat workflow OCR yang kompleks melalui UI tanpa perlu menggunakan kode/CLI
Pengembangan lintas platform yang mudah: dapat dijalankan dengan Docker dan satu perintah, terlepas dari jenis OS

1 komentar

GN⁺ 2025-02-15

Komentar Hacker News

Pipeline segmentasi yang kompleks memang diperlukan beberapa tahun lalu, tetapi sekarang penuh error dan menghilangkan konteks penting dari model. Untuk beralih ke tulisan tangan, konteks itu diperlukan
- Untuk menguraikan tulisan tangan historis, para ahli akan mengatakan bahwa seluruh dokumen diperlukan
- Harus menuntaskan pengenalan teks, bukan sekadar pengenalan karakter
- Menilai model dengan CER bukan pendekatan yang baik
- Pengenalan teks sedang mengulangi kesalahan machine translation dari 15 tahun lalu
OCR4all adalah perangkat lunak untuk pemulihan dan pengenalan teks digital dari bahan cetak awal era modern
- Jenis cetak yang kompleks dan tata letak yang tidak seragam menguji kemampuan perangkat lunak pengenalan teks umum
- Tampaknya dibangun di atas Calamari-OCR
OCR4all dengan jelas dan intuitif menangani kebutuhan pengguna nonteknis
- Ada petunjuk untuk membuka terminal di Linux dan mengetik perintah
- Jadi terasa meragukan bagaimana ini membantu pengguna nonteknis
Vision Framework milik Apple menyediakan pustaka pengenalan teks yang lebih cepat dan akurat daripada Tesseract
- Dapat menangani hampir semua format gambar
- Menulis alat CLI sederhana dan wrapper Python
Menggabungkan Tesseract dan LLM untuk memperbaiki error dan menyempurnakan format adalah titik optimal saat ini untuk kecepatan/efisiensi/akurasi
- Teks prompt bahasa Inggris dapat diedit untuk memprioritaskan aspek tertentu dari dokumen masukan
Mengembangkan API OCR dengan dukungan AI
- Menggabungkan Tesseract dan Poppler-utils untuk mengekstrak segmen dokumen secara cerdas
- Dapat dengan mudah diperluas ke berbagai model Vision LLM
- Menghasilkan API agen AI lengkap sebagai container Dockerized
Workflow ini ditujukan untuk mendigitalkan dokumen cetak historis
- Berkaitan dengan pelestarian pengumuman lama yang dicetak dalam jenis huruf blackletter
OCR4all menyediakan workflow pengenalan teks otomatis dengan menggabungkan berbagai solusi open source
- Tampaknya berbasis OCR-D, yang dibangun di atas Tesseract, Kraken, DUP-ocropy, Calamari-OCR
- Terlihat sebagai alternatif open source untuk Transkribus
- eScriptorium juga merupakan alternatif lain
Ada rasa penasaran apakah ini mesin OCR SOTA baru atau alat yang menggunakan mesin lain yang sudah dikenal
- Akan lebih baik jika landing page-nya lebih jelas
OCR yang sempat dianggap sudah sebagian besar diselesaikan oleh Tesseract, tetapi ada yang sedang mencari pustaka atau implementasi untuk kompresi MRC pada PDF hasil
- Produk komersial mahal, dan memisahkan, mengompresi, lalu menggabungkan kembali layer gambar adalah masalah yang sulit

OCR4all - OCR untuk Semua Orang

Bacaan terkait

1 komentar

Komentar Hacker News