36 poin oleh xguru 2025-03-13 | 3 komentar | Bagikan ke WhatsApp
  • Video scraping: memasukkan video tangkapan layar ke model Google Gemini untuk diubah menjadi data terstruktur
  • Menggunakan model gambar: memakai Gemini, GPT-4o, Claude 3.7, dan lainnya untuk mengekstrak data dari gambar serta PDF yang tidak terstruktur
  • Memanfaatkan library modern seperti Playwright: menjalankan otomasi browser, lalu mengintegrasikannya dengan model analisis video/gambar
  • Workshop interaktif berdurasi 1 jam yang dibawakan Simon Willison di konferensi jurnalisme data NICAR 2025

Susunan workshop

1. Git scraping

  • Apa itu Git scraper?
    • Menggunakan GitHub Actions untuk melakukan scraping situs web atau resource secara berkala dan mencatat perubahannya
    • Mudah dikonfigurasi setelah menyalin template repo dari repositori GitHub
    • Jika memasukkan URL situs web tertentu atau URL file JSON, proses akan berjalan otomatis setiap hari
  • Dengan menambahkan .atom ke URL halaman commit repositori, Anda bisa membuat feed RSS
    • Perubahan situs web dapat dipantau secara real-time lewat pembaca RSS

2. Scraping JavaScript di dalam browser

  • Untuk situs web yang kompleks, mengekstrak data hanya dengan parsing HTML sederhana sering kali sulit
  • Setelah halaman dimuat di browser sungguhan, scraping dapat dilakukan menggunakan JavaScript
  • Ekstraksi data tabel: menggunakan JavaScript di alat pengembang browser untuk mengubah data tabel menjadi JSON
  • Menangani halaman infinite scroll: JavaScript dapat dipakai untuk mengumpulkan konten yang terus ditambahkan ke halaman secara otomatis
  • Otomasi dengan shot-scraper:
    • Dapat mengambil screenshot seluruh halaman web dengan perintah tertentu
    • Dapat menjalankan kode JavaScript lalu mengeluarkan data dalam format JSON

3. Ekstraksi data terstruktur dengan LLM

  • LLM (Large Language Model) dapat mengubah data tidak terstruktur menjadi data terstruktur
  • Memerlukan API key OpenAI dan Google Gemini
  • Dapat dijalankan di Codespaces atau lingkungan Python lokal
  • Ekstraksi data melalui schema
    • Schema adalah definisi bentuk data yang akan dikembalikan oleh LLM
    • Misalnya, judul, URL, tanggal, dan sebagainya dapat didefinisikan dalam schema agar data diekstrak dalam format yang konsisten
    • Saat melakukan scraping dari halaman web, output juga dapat dibuat berbasis schema
  • Perhitungan biaya dan pemilihan model
    • Setiap model menimbulkan biaya berdasarkan jumlah token input dan output
    • Model GPT-4o mini murah, tetapi model lain bisa jauh lebih mahal
    • Sebagai contoh, model GPT-4.5 dapat menimbulkan biaya yang jauh lebih tinggi untuk pekerjaan yang sama
    • Model Gemini relatif murah dan menawarkan berbagai opsi
  • Ekstraksi data dari PDF
    • Data dapat diekstrak dari dokumen PDF seperti FEMA Daily Operations Briefing
    • Model Gemini dapat menerima file PDF sebagai input lalu menghasilkan output JSON terstruktur
    • Tabel atau teks tertentu juga dapat diekstrak dari PDF
  • Ekstraksi data dari gambar
    • GPT-4o dapat mengekstrak data dari gambar
    • Dengan memasukkan screenshot ke model, output data terstruktur dapat dihasilkan
  • Tips memilih model
    • Model Gemini 2.0 Pro gratis, tetapi memiliki batas kecepatan yang ketat
    • Perlu menguji dan memilih beberapa model dengan mempertimbangkan efisiensi biaya dan performa
    • Bergantung pada karakteristik halaman web, shot-scraper bisa lebih berguna daripada LLM
  • Tantangan pemrosesan data kompleks
    • Saat mengekstrak data dari infografik atau peta yang kompleks, performa model dapat berbeda-beda
    • Perlu mencoba beragam model untuk memilih yang memberikan performa terbaik

4. Video scraping dengan Google AI Studio

  • Video scraping adalah cara yang kuat untuk mengekstrak data dari situs web yang sulit discrape dengan metode biasa
  • Model Google Gemini dapat menerima input video dan mengubahnya menjadi data terstruktur dalam format JSON
  • Setelah merekam layar, video tersebut dapat dimasukkan ke model AI untuk mengekstrak data
  • Proses video scraping
    1. Pindah ke bagian situs web yang memuat data yang diinginkan
    2. Jalankan alat perekam layar (misalnya QuickTime Player)
    3. Jelajahi situs web → berhenti sejenak di bagian penting
    4. Unggah video hasil rekaman ke Google AI Studio
    5. Tulis prompt model di AI Studio dan ekstrak data
    6. Gunakan alat ekstraksi schema untuk menyusun data dalam format JSON
  • Kelebihan video scraping
    • Dapat melewati struktur situs web yang rumit
    • Berguna untuk situs yang memerlukan rendering JavaScript
    • Dapat mengekstrak beragam data di dalam halaman (teks, tabel, gambar, dan lain-lain)
  • Hal yang perlu diperhatikan
    • Sebagian besar fitur yang disediakan AI Studio gratis, tetapi data yang dimasukkan bisa digunakan untuk pelatihan
    • Sebaiknya jangan memasukkan data yang sensitif terhadap keamanan
    • Untuk situs web yang kompleks, video scraping bisa lebih efisien daripada teknik scraping lainnya
  • Opsi streaming real-time
    • Dengan opsi Stream Realtime di AI Studio, ekstraksi data secara real-time dimungkinkan
    • Ini juga bisa efektif untuk konten dinamis yang sulit discrape
  • Penerapan di newsroom
    • Berguna untuk ekstraksi data kompleks dan otomasi di newsroom
    • Performa dan akurasi model Gemini dapat diuji untuk menemukan pendekatan terbaik
    • Kolaborasi dan umpan balik tetap dimungkinkan setelah workshop

Alat dan materi tambahan

3 komentar

 
roxie 2025-03-16

Hmm.. sepertinya penggunaan GitHub Actions akan melanggar kebijakan GitHub

 
lighteach 2025-03-14

Akan sangat bagus kalau ada juga versi untuk Android.

 
wantutopia 2025-03-13

Kalau dilengkapi fitur untuk menghindari pencegahan macro, sepertinya akan jadi pemenang di pasar.