- Alat open source yang mengubah dokumen PDF dan JPG/PNG menjadi teks biasa sambil mempertahankan urutan baca yang alami
- Dirancang untuk memproses dokumen dalam jumlah besar dengan cepat, serta mendukung tabel, rumus, tulisan tangan, dan lainnya
- Dilatih berdasarkan makalah akademik, dokumen teknis, dan berbagai materi referensi lainnya
- Menggunakan teknik prompting unik untuk meningkatkan akurasi dan mengurangi halusinasi (hallucination)
- Model saat ini dioptimalkan untuk dokumen berbahasa Inggris, sehingga kemungkinan besar belum mendukung bahasa lain dengan baik
- Dokumen dapat diuji langsung melalui halaman demo
- Biaya konversi sekitar $190 USD untuk 1 juta halaman, sehingga dapat dioperasikan secara ekonomis
- Membutuhkan GPU NVIDIA terbaru (sudah diuji pada RTX 4090, L40S, A100, H100)
- Coba di demo online (PDF, JPG, PNG)
Kode yang termasuk dalam toolkit open source
- Strategi prompting berbasis ChatGPT 4o (
buildsilver.py) : mencakup teknik untuk memaksimalkan performa parsing teks alami
- Alat evaluasi perbandingan pipeline (
runeval.py)
- Fitur pemfilteran bahasa dan penghapusan spam SEO (
filter.py)
- Kode fine-tuning untuk Qwen2-VL dan Molmo-O (
train.py)
- Pipeline untuk memproses PDF dalam jumlah besar (
pipeline.py) : dapat memproses jutaan PDF menggunakan Sglang
- Penampil dokumen Dolma (
dolmaviewer.py) : memungkinkan pemeriksaan visual dokumen format Dolma yang dikonversi dari PDF
2 komentar
Saat ini sepertinya belum bisa berjalan di Windows..
Sepertinya library yang berjalan tanpa GPU masih ada gunanya untuk saat ini.