Pendahuluan
- Di masyarakat modern, teknologi kecerdasan buatan mendorong inovasi di berbagai bidang, dan pentingnya data terus meningkat
- Format HWP memiliki elemen-elemen yang menguntungkan untuk pelatihan AI
- Selain teks sederhana, format ini terdiri dari berbagai elemen seperti gambar, tabel, dan bagan sehingga menyediakan informasi yang kaya
- Karena terstruktur dalam berbagai format seperti judul, paragraf, dan tabel, format ini dapat membantu model AI memahami dan menganalisis dokumen
- Artikel ini akan melihat struktur format HWP dan cara informasi dokumen disimpan
Apa itu format HWP?
- Format HWP adalah format dokumen yang dikembangkan oleh Hancom dan pertama kali diperkenalkan pada tahun 1997.
- Format ini disusun sebagai CFB (Compound File Binary File Format), yaitu metode penyimpanan beberapa aliran data dalam satu file.
- File HWP mencakup informasi seperti File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage, dan PrvText.
1. File Header
- Header file pada file HWP berisi informasi pengenalan dokumen Han/geul.
- Di dalamnya terdapat informasi tanda tangan, versi dokumen, dan informasi pengenalan file, yang digunakan untuk menentukan jenis dokumen pada file HWP.
2. DocInfo
- Ini adalah stream yang menyimpan informasi umum seperti font yang digunakan dalam dokumen, atribut karakter, dan atribut paragraf.
- DocInfo disimpan dalam keadaan terkompresi dengan zlib, dan data aslinya dapat diperiksa setelah dekompresi.
- Berbagai jenis informasi disimpan dalam format record.
3. DocOptions
- Informasi seperti dokumen tertaut, dokumen untuk distribusi, dan sertifikat digital disimpan sebagai stream.
4. BodyText (Section)
- Konten sebenarnya yang menjadi isi utama dokumen disimpan di sini.
- Terdiri dari beberapa stream Section sesuai jumlah bagian dalam isi dokumen.
5. Script
- Ini adalah storage yang mencatat informasi skrip yang didefinisikan dalam fitur makro skrip.
6. HwpSummaryInformation
- Menyimpan informasi ringkasan dokumen dan menggunakan struktur PropertySet milik Microsoft.
7. PrvImage
- Merupakan gambar pratinjau dokumen, yang menyimpan gambar halaman pertama.
8. PrvText
- Merupakan teks pratinjau dokumen, yang menyimpan isi halaman pertama sebagai string Unicode.
Penutup
- Format HWP disimpan dalam bentuk biner sehingga sulit dibaca langsung oleh manusia, dan dirancang agar hanya dapat dibuka serta diedit dengan perangkat lunak tertentu.
- Sebaliknya, format HWPX adalah format berbasis Open XML dengan data yang terstruktur, sehingga dirancang agar manusia dapat lebih mudah memahami isinya.
- Pada artikel berikutnya, akan dibahas bagaimana format HWPX menyimpan informasi dengan cara yang berbeda dari format HWP.
13 komentar
Saya hahnlee, yang pernah mengembangkan hwp.js (https://github.com/hahnlee/hwp.js) :)
Saat mengembangkan proyek itu, dan bahkan sampai sekarang pun, saya sebenarnya tidak terlalu menyukai HWP. Terutama soal tingkat keterbukaannya.
Namun, saya cukup setuju dengan bagian bahwa "format HWP memiliki elemen-elemen yang menguntungkan untuk pelatihan AI".
Berdasarkan pengalaman saat membangun RAG, di Korea tabel sangat sering digunakan. Dalam kasus PDF, karena itu adalah format yang dibuat dengan asumsi untuk pencetakan, tidak ada yang namanya "tabel" di dalam PDF. Yang ada hanya garis dan teks.
Karena itu, mengekstrak data dari informasi tabel yang kompleks sulit dilakukan jika berbasis dokumen PDF. Terutama ketika tabel melampaui halaman.
Secara kasar, jika HWP terasa seperti semacam dokumen rich text, maka PDF terasa seperti dokumen txt. Tentu ini hanya berlaku untuk pembahasan "tabel".
Namun, apakah ini benar-benar keunggulan khusus format HWP? Menurut saya tidak. Untuk hal yang sederhana, Markdown sudah cukup, dan kalau lebih kompleks, menurut saya lebih baik didefinisikan dengan HTML.
Dan yang paling menentukan, docx maupun odt juga memiliki keunggulan yang sama.
Setelah Netscape dihajar habis-habisan oleh IE, mereka lalu membuka source code dan semacamnya, terlambat dan cuma sibuk menabuh genderang belakangan.
Saya tidak suka HWP dan saya juga tidak bisa berkata baik tentang produk perusahaan Hancom saat ini, tetapi menurut saya dulu produknya sendiri adalah perangkat lunak yang jauh lebih unggul daripada Word.
Saya juga merasa itu adalah perangkat lunak yang hebat, setidaknya sampai Hangeul 97 dirilis.
Apa ini sungguhan?
Sosok malang yang gagal menjadi standar dunia
Saya memang belajar pengolah kata dengan Hangeul Word Processor, tetapi sekarang rasanya ini adalah peninggalan usang yang seharusnya sudah hilang demi kemajuan Korea Selatan.
Dibandingkan dengan MS Word atau Libre Office, Hangeul jauh lebih nyaman untuk membuat dokumen dengan bentuk yang saya inginkan. Untuk distribusinya tinggal pakai PDF saja.
Tentu saja, saya juga merasa begitu karena saya lebih terbiasa dengan Hangeul.
"Format HWP memiliki elemen-elemen yang menguntungkan untuk pelatihan AI"
Ini benar nggak sih..?
Menurut saya AI sebaiknya fokus belajar dari PDF saja, dan untuk HWP mungkin lebih baik membuat konverter PDF yang bagus haha
Saya juga sempat bingung saat membaca bagian itu, tetapi setelah melihat domain aslinya jadi paham wkwk
Aha.. jadi paham.. wkwkwkwk
Saya sih tidak terlalu merasa relate. Kalau
hwpxyang juga disebut di isi artikel, mungkin lain cerita...