Marker - Open source untuk mengonversi PDF ke Markdown
(github.com/VikParuchuri)- Mengonversi PDF, EPUB, dan MOBI ke Markdown
- Lebih dari 10x lebih cepat dan lebih akurat dibandingkan Nougat buatan Facebook Research
- Dioptimalkan untuk format buku dan makalah
- Menghapus header, footer, dan artefak lainnya
- Sebagian besar rumus dikonversi ke LaTeX
- Blok kode dan tabel diformat
- Mendukung banyak bahasa
6 komentar
Waduh….
Sepertinya cobaan sedang menghampiri para penerbit berbahasa Inggris.
Beberapa penerbit yang berfokus pada teknologi bahkan ada yang langsung memberikan file PDF saat membeli buku, jadi saya penasaran bagaimana mereka akan menyikapinya.
Apakah PDF-nya harus sudah melalui OCR?? Sepertinya harus langsung saya coba.
Kalau hanya melihat
readme, sepertinya ini juga menjalankan pekerjaan OCR... mungkin saya salah membacanya...Ya.. memakai ungkapan yang agak sulit dipahami bagi orang yang tidak jago bahasa Inggris
Ekstrak teks, OCR jika perlu??
> Ini bekerja paling baik pada PDF digital yang tidak memerlukan banyak OCR. Ini dioptimalkan untuk kecepatan, dan OCR terbatas digunakan untuk memperbaiki kesalahan.
Karena fokusnya pada kecepatan, kemungkinan besar ini kurang cocok untuk PDF yang memerlukan OCR dalam jumlah besar.
Bisa dibilang OCR-nya memang ada, tetapi tidak bisa dijamin.
> Hanya bahasa yang mirip dengan bahasa Inggris (Spanyol, Prancis, Jerman, Rusia, dll.) yang didukung. Bahasa dengan set karakter berbeda (Tionghoa, Jepang, Korea, dll.) tidak didukung.
Selain itu, CJK juga tidak didukung.
Terima kasih!