14 poin oleh xguru 2022-06-22 | Belum ada komentar. | Bagikan ke WhatsApp
  • Format file berbasis SQLite DB yang memudahkan data hasil web crawling untuk di-query dengan SQL
  • File standar Web ARChive (.warc) yang digunakan di wget dan WebRecorder dapat diimpor ke .warcdb
  • Menggunakan perintah sqlite-utils apa adanya
wget --warc-file tselai "https://tselai.com";  
warcdb import archive.warcdb tselai.warc.gz  
  
// Mengambil semua response header  
sqlite3 archive.warcdb <<SQL  
select  json_extract(h.value, '$.header') as header,   
        json_extract(h.value, '$.value') as value  
from response,  
     json_each(http_headers) h  
SQL  

Belum ada komentar.

Belum ada komentar.