- Format file berbasis SQLite DB yang memudahkan data hasil web crawling untuk di-query dengan SQL
- File standar Web ARChive (.warc) yang digunakan di
wget dan WebRecorder dapat diimpor ke .warcdb
- Menggunakan perintah
sqlite-utils apa adanya
wget --warc-file tselai "https://tselai.com"
warcdb import archive.warcdb tselai.warc.gz
// Mengambil semua response header
sqlite3 archive.warcdb <<SQL
select json_extract(h.value, '$.header') as header,
json_extract(h.value, '$.value') as value
from response,
json_each(http_headers) h
SQL
Belum ada komentar.