AI-readable Gazette - 128 ribu publikasi Lembaran Negara Republik Korea dari PDF menjadi korpus Markdown

(github.com/hosungseo)

16 poin oleh hosungseo2026 2026-04-19 | 2 komentar | Bagikan ke WhatsApp

Lembaran negara kita sebenarnya sudah terbuka untuk umum. Dokumen ini bisa diunduh dalam bentuk PDF dari Portal Data Publik, dan tidak ada penyensoran. Namun mengapa peneliti, jurnalis, pengembang, organisasi masyarakat sipil, dan pegawai negeri harus terus-menerus mem-parsing lembaran negara yang sama masing-masing dari awal?
Sekitar 128 ribu publikasi Lembaran Negara Republik Korea (2020.01.02 ~ 2026.04.07, 1.474 grup tanggal) yang diindeks ulang ke dalam Markdown dan hasil OCR-nya dikoreksi secara kumulatif berbasis kamus, menjadi korpus turunan lembaran negara yang bisa dibaca bersama oleh manusia dan AI
Penulis adalah pejabat administrasi di kementerian pusat
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/

Batas keterbukaan untuk manusia

Jarak antara "sudah dibuka" dan "bisa digunakan oleh agen AI" ternyata lebih besar dari yang dibayangkan
PDF tidak memungkinkan perbandingan per pasal, sulit difilter berdasarkan instansi, tanggal, atau peristiwa, OCR sering rusak, dan struktur tabel ikut rusak
Akibatnya, biaya prapemrosesan terus dibebankan ke sisi pengguna (agen). Jurnalis, peneliti, dan pegawai negeri membongkar PDF yang sama berulang-ulang secara terpisah
Tahap berikutnya dari transparansi bukanlah "membuka lebih banyak", melainkan "membuat hal yang sama bisa dibaca mesin"

Apa saja isinya

derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128.403 file Markdown yang telah selesai dikoreksi
Pada frontmatter terdapat title / publisher / date / source_raw_md — bisa langsung di-chunk → embedding → ditancapkan ke RAG
docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — indeks JSON statis. Bisa di-fetch dari situs eksternal tanpa batasan CORS
Live reader adalah HTML murni yang bisa dibuka tanpa build tool (termasuk pencarian, heatmap, TOC, mode gelap, dan pintasan keyboard)
Cakupan instansi: kementerian/lembaga pusat ~108.800 dokumen, yudisial ~7.700, pendidikan ~4.100, pemerintah daerah ~3.300, dan sekitar 1.600 instansi secara total

OCR: di atas open source lokal

OCR untuk ekstraksi teks PDF menggunakan opendataloader, alat open source dari Hancom
Pemilihan alat ini, alih-alih alat lain, dilakukan dengan sengaja. Karena pekerjaan ini menangani data publik berupa lembaran negara, alatnya juga semestinya berjalan di atas open source lokal
Jika opendataloader sendiri terus berkembang, jumlah karakter yang rusak juga akan berkurang, dan kamus koreksinya pun secara alami menjadi lebih ringan
Jika alatnya membaik, korpusnya juga ikut membaik

Satu lapisan tambahan di atas PDF

Mempublikasikan dalam bentuk PDF adalah pilihan yang sah dari sisi pencegahan pemalsuan. Bahwa dokumen aslinya berupa PDF bukanlah masalah
Solusinya bukan "menghapus publikasi PDF", melainkan "tetap menjadikan PDF sebagai sumber asli, lalu menambahkan satu lapisan turunan yang AI-readable di atasnya"
Repositori ini tidak menghapus atau mengganti naskah asli. PDF asli tetap dipertahankan, dan di atasnya hanya ditambahkan korpus bacaan turunan dalam struktur dua lapis

2 komentar

meta1001 9 hari lalu

Sangat bagus. Kebijakan yang benar-benar didorong dalam briefing kebijakan bisa dianalisis AI secara real time saat berubah dalam kebijakan negara dan peraturan perundang-undangan, lalu menghasilkan hasilnya.

limhasic 2026-04-20

Hehe, ini buat apa?

AI-readable Gazette - 128 ribu publikasi Lembaran Negara Republik Korea dari PDF menjadi korpus Markdown

Bacaan terkait

2 komentar