6 poin oleh GN⁺ 2025-02-26 | 4 komentar | Bagikan ke WhatsApp
  • Menjelaskan struktur HWPX, format dokumen terbuka, serta cara data disimpan dan dikelola
  • Menjelaskan perbedaan antara HWPX dan format HWP lama, sekaligus menganalisis komponen utama format HWPX dan peran masing-masing file

Pendahuluan

  • Perbedaan terbesar adalah HWP merupakan format biner, sedangkan HWPX terdiri dari file-file XML dalam struktur ZIP
  • Pada format HWP, stream disusun dalam bentuk record sehingga diperlukan proses analisis terpisah untuk mengekstrak data
    • Sebaliknya, pada format HWPX file-file utamanya berupa XML sehingga ekstraksi data menjadi mudah

Apa itu HWPX

  • Format dokumen terbuka berbasis XML yang dikembangkan oleh Hancom, mengikuti OWPML yang merupakan standar nasional (KS X 6101)
  • OWPML berarti 'Open Word-Processor Markup Language', yaitu bahasa markup pengolah kata terbuka berbasis XML
    • Ditetapkan sebagai Standar Industri Korea (KS) pada 30 Desember 2011, dan pengembangan standarnya dilakukan selama sekitar 2 tahun melalui komite standardisasi dokumen domestik
    • Standar nasional yang dikembangkan bersama para ahli yang berpartisipasi langsung dalam pengembangan standar domestik
  • Format file yang dikembangkan untuk menjamin keterbukaan, kompatibilitas, dan preservasi dari format biner HWP
    • Untuk itu, format ini disusun sebagai package format berbasis XML

Struktur File HWPX

  • HWPX adalah format berbasis XML dengan struktur file ZIP
  • Setelah diekstrak, isinya terdiri dari beberapa file XML dan folder
  • Komponen utama:
    • mimetype: memuat informasi jenis file dan menjadi signature untuk mengidentifikasi bahwa ini adalah format HWPX
    • settings.xml: memuat informasi elemen pengaturan eksternal seperti posisi kursor
    • version.xml: memuat informasi versi format file OWPML dan informasi lingkungan penyimpanan dokumen
    • BinData/: menyimpan file biner seperti gambar dan objek OLE yang disertakan dalam dokumen
    • Contents/: memuat informasi format dokumen dan isi utama, terdiri dari file seperti content.hpf, header.xml, section0.xml, dan lainnya
      • content.hpf : daftar file utama dalam package. Didefinisikan sesuai standar PF (Open Packaging Format), dan terbagi menjadi tiga bagian: metadata, manifest, dan spine
      • header.xml : memuat seluruh pengaturan terkait isi dokumen, termasuk informasi pemetaan seperti bentuk huruf dan bentuk paragraf
      • section0.xml : menyimpan isi utama per bagian, dengan setiap bagian dokumen disimpan sebagai file terpisah
    • META-INF/: berisi file manifest.xml, container.rdf, dan container.xml; untuk dokumen terenkripsi, informasi enkripsi tiap file disimpan di sini
    • Scripts/: informasi skrip yang tersimpan dalam dokumen disimpan dalam file headerScripts dan sourceScripts
    • Preview/: berisi gambar pratinjau dan file teks. Informasi ini ditampilkan saat jendela pratinjau dibuka di file explorer. Untuk dokumen terenkripsi, file ini tidak disimpan demi keamanan

Penutup

  • Menjelaskan struktur keseluruhan HWPX dan peran setiap file yang membentuk bagian dalamnya sebelum memanfaatkannya
  • Pada seri berikutnya, akan dibagikan contoh untuk mengekstrak data yang diinginkan dari dokumen HWPX nyata
  • Diharapkan ini dapat membantu dalam memanfaatkan komponen dan data HWPX

4 komentar

 
penguin5 2025-02-26

Terima kasih untuk tulisannya yang bagus. Saya ingin membuat file yang dihasilkan di AWS (seperti laporan) dalam format HWP, tetapi kesulitan karena referensi terkaitnya masih kurang. Saat ini saya menggunakan Word. Jika ada materi yang bisa dijadikan referensi, saya mohon bantuannya untuk membagikan tautannya.

 
regentag 2025-02-26

Dulu saya dengar hwpx itu hanya biner hwp yang diuraikan menjadi XML lalu dibungkus dengan ZIP.
Namun setidaknya masih bisa dibaca, jadi...

 
molla 2025-02-26

Katanya itu meniru persis docx.
MS sendiri juga sudah melakukan hal seperti itu saat mengubah doc menjadi docx.