- Menjelaskan struktur HWPX, format dokumen terbuka, serta cara data disimpan dan dikelola
- Menjelaskan perbedaan antara HWPX dan format HWP lama, sekaligus menganalisis komponen utama format HWPX dan peran masing-masing file
Pendahuluan
- Perbedaan terbesar adalah HWP merupakan format biner, sedangkan HWPX terdiri dari file-file XML dalam struktur ZIP
- Pada format HWP, stream disusun dalam bentuk record sehingga diperlukan proses analisis terpisah untuk mengekstrak data
- Sebaliknya, pada format HWPX file-file utamanya berupa XML sehingga ekstraksi data menjadi mudah
Apa itu HWPX
- Format dokumen terbuka berbasis XML yang dikembangkan oleh Hancom, mengikuti OWPML yang merupakan standar nasional (KS X 6101)
- OWPML berarti 'Open Word-Processor Markup Language', yaitu bahasa markup pengolah kata terbuka berbasis XML
- Ditetapkan sebagai Standar Industri Korea (KS) pada 30 Desember 2011, dan pengembangan standarnya dilakukan selama sekitar 2 tahun melalui komite standardisasi dokumen domestik
- Standar nasional yang dikembangkan bersama para ahli yang berpartisipasi langsung dalam pengembangan standar domestik
- Format file yang dikembangkan untuk menjamin keterbukaan, kompatibilitas, dan preservasi dari format biner HWP
- Untuk itu, format ini disusun sebagai package format berbasis XML
Struktur File HWPX
- HWPX adalah format berbasis XML dengan struktur file ZIP
- Setelah diekstrak, isinya terdiri dari beberapa file XML dan folder
- Komponen utama:
mimetype: memuat informasi jenis file dan menjadi signature untuk mengidentifikasi bahwa ini adalah format HWPX
settings.xml: memuat informasi elemen pengaturan eksternal seperti posisi kursor
version.xml: memuat informasi versi format file OWPML dan informasi lingkungan penyimpanan dokumen
BinData/: menyimpan file biner seperti gambar dan objek OLE yang disertakan dalam dokumen
Contents/: memuat informasi format dokumen dan isi utama, terdiri dari file seperti content.hpf, header.xml, section0.xml, dan lainnya
content.hpf : daftar file utama dalam package. Didefinisikan sesuai standar PF (Open Packaging Format), dan terbagi menjadi tiga bagian: metadata, manifest, dan spine
header.xml : memuat seluruh pengaturan terkait isi dokumen, termasuk informasi pemetaan seperti bentuk huruf dan bentuk paragraf
section0.xml : menyimpan isi utama per bagian, dengan setiap bagian dokumen disimpan sebagai file terpisah
META-INF/: berisi file manifest.xml, container.rdf, dan container.xml; untuk dokumen terenkripsi, informasi enkripsi tiap file disimpan di sini
Scripts/: informasi skrip yang tersimpan dalam dokumen disimpan dalam file headerScripts dan sourceScripts
Preview/: berisi gambar pratinjau dan file teks. Informasi ini ditampilkan saat jendela pratinjau dibuka di file explorer. Untuk dokumen terenkripsi, file ini tidak disimpan demi keamanan
Penutup
- Menjelaskan struktur keseluruhan HWPX dan peran setiap file yang membentuk bagian dalamnya sebelum memanfaatkannya
- Pada seri berikutnya, akan dibagikan contoh untuk mengekstrak data yang diinginkan dari dokumen HWPX nyata
- Diharapkan ini dapat membantu dalam memanfaatkan komponen dan data HWPX
4 komentar
Terima kasih untuk tulisannya yang bagus. Saya ingin membuat file yang dihasilkan di AWS (seperti laporan) dalam format HWP, tetapi kesulitan karena referensi terkaitnya masih kurang. Saat ini saya menggunakan Word. Jika ada materi yang bisa dijadikan referensi, saya mohon bantuannya untuk membagikan tautannya.
Dulu saya dengar
hwpxitu hanya binerhwpyang diuraikan menjadi XML lalu dibungkus dengan ZIP.Namun setidaknya masih bisa dibaca, jadi...
Katanya itu meniru persis
docx.MS sendiri juga sudah melakukan hal seperti itu saat mengubah
docmenjadidocx.Format file dokumen Han/Geul: melihat struktur format HWP