2 poin oleh GN⁺ 2025-02-11 | 1 komentar | Bagikan ke WhatsApp
  • Library Python untuk memeriksa dan mengubah struktur internal berkas PDF
  • Berfokus pada implementasi Bab 7 standar PDF ("Syntax")
  • Mengelola struktur dokumen pada tingkat byte sehingga dapat melakukan berbagai pekerjaan transformasi seperti akses metadata dan rotasi

Fitur utama

  • Menyediakan toolkit API untuk operasi baca/tulis PDF
  • Mendukung CLI (Command Line Interface) agar fungsi tertentu dapat digunakan dari terminal atau browser
  • Library ringan tanpa dependensi, ditulis dengan Python murni
  • Dirancang dengan menekankan kesederhanaan dan imutabilitas
  • Mendukung pengeditan non-destruktif yang diizinkan oleh standar PDF, dan secara default menambahkan pembaruan inkremental di akhir berkas asli
    • Semua riwayat perubahan juga dapat dibatalkan atau digabungkan menjadi satu versi

Demo langsung

  • Menyediakan demo langsung untuk menjelajahi keluaran HTML statis PDFSyntax di browser.
  • Demo tersebut adalah keluaran untuk berkas contoh Simple Text String dari spesifikasi PDF.

1 komentar

 
GN⁺ 2025-02-11
Komentar Hacker News

Ringkasan kumpulan komentar Hacker News

  • Ada yang pernah mengerjakan ekstraksi data dari PDF di masa lalu. Saat itu belum ada teknologi AI, tetapi sekarang ada kemungkinan memanfaatkan LLM untuk mengekstrak data.

  • Ada pendapat bahwa jika di tempat kerja sebelumnya sudah ada alat ekstraksi data PDF, alat itu akan sangat sering dipakai. Alat yang ideal seharusnya bekerja dengan menjatuhkan file lalu memproses semuanya secara lokal.

  • Ada yang selama ini menggunakan alat gratis bernama iText RUPS untuk debugging PDF, dan berharap kemampuan alat baru ini akan lebih kuat.

  • Ada pertanyaan mengapa PDF tidak tergantikan oleh XPS, DjVu, XHTML (EPUB), dan lain-lain. Dikatakan bahwa dibutuhkan format dokumen sederhana yang tetap mendukung hyperlink di dalam halaman, perubahan ukuran font, dan sebagainya.

  • Ada pendapat bahwa ini berguna untuk forensik dan mencari watermark.

  • Ada yang berpendapat akan lebih baik jika semua byte PDF ditampilkan. Mereka menyoroti bahwa endobj dan xref tidak terlihat.

  • Ada yang mengatakan pernah ada proyek serupa di GitHub, dan mereka teringat contoh TCP/IP.

  • Ada pendapat bahwa ini akan bagus digunakan sebagai library browser. Fitur drag-and-drop file untuk melihat bagian dalamnya dianggap mengesankan.

  • Ada yang penasaran apakah alat UI ini juga merupakan library. Mereka menilai UI-nya sederhana tetapi bagus karena memanfaatkan CSS dengan baik.

  • Ada yang mengatakan sedang mencari alat yang dapat menjelaskan konten format media visual pada tingkat byte. Mereka bertanya apakah ada yang mengetahui alat untuk format seperti JPEG, PNG, AVI, MP4, dan lainnya.