25 poin oleh xguru 2025-03-03 | 2 komentar | Bagikan ke WhatsApp
  • Alat open source yang mengubah dokumen PDF dan JPG/PNG menjadi teks biasa sambil mempertahankan urutan baca yang alami
  • Dirancang untuk memproses dokumen dalam jumlah besar dengan cepat, serta mendukung tabel, rumus, tulisan tangan, dan lainnya
  • Dilatih berdasarkan makalah akademik, dokumen teknis, dan berbagai materi referensi lainnya
  • Menggunakan teknik prompting unik untuk meningkatkan akurasi dan mengurangi halusinasi (hallucination)
  • Model saat ini dioptimalkan untuk dokumen berbahasa Inggris, sehingga kemungkinan besar belum mendukung bahasa lain dengan baik
  • Dokumen dapat diuji langsung melalui halaman demo
  • Biaya konversi sekitar $190 USD untuk 1 juta halaman, sehingga dapat dioperasikan secara ekonomis
  • Membutuhkan GPU NVIDIA terbaru (sudah diuji pada RTX 4090, L40S, A100, H100)
  • Coba di demo online (PDF, JPG, PNG)

Kode yang termasuk dalam toolkit open source

  • Strategi prompting berbasis ChatGPT 4o (buildsilver.py) : mencakup teknik untuk memaksimalkan performa parsing teks alami
  • Alat evaluasi perbandingan pipeline (runeval.py)
  • Fitur pemfilteran bahasa dan penghapusan spam SEO (filter.py)
  • Kode fine-tuning untuk Qwen2-VL dan Molmo-O (train.py)
  • Pipeline untuk memproses PDF dalam jumlah besar (pipeline.py) : dapat memproses jutaan PDF menggunakan Sglang
  • Penampil dokumen Dolma (dolmaviewer.py) : memungkinkan pemeriksaan visual dokumen format Dolma yang dikonversi dari PDF

2 komentar

 
kleinstein 2025-03-06

Saat ini sepertinya belum bisa berjalan di Windows..

 
kaydash 2025-03-03

Sepertinya library yang berjalan tanpa GPU masih ada gunanya untuk saat ini.