8 poin oleh xguru 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Alat open-source untuk membuat dataset terstruktur dari web langsung hanya dengan satu kalimat bahasa alami, lalu memperbaruinya secara otomatis pada interval yang ditentukan
    • Contoh: "Daftar perusahaan YC yang saat ini sedang merekrut engineer beserta tahap pendanaan, lokasi, dan jumlah lowongan publik"
  • Menginferensi skema secara otomatis dari kalimat masukan — menentukan nama kolom, tipe, kunci utama, hingga lokasi pencarian di web
  • Agen otonom menelusuri web langsung, lalu membandingkan dan memverifikasi dengan sumber nyata sebelum menghapus duplikasi dan mengembalikannya dalam bentuk tabel
    • Saat agen orkestrator menemukan entitas, sub-agen akan tersebar secara paralel untuk meneliti dan memverifikasi tiap entitas
  • Hasil dapat diunduh sebagai CSV / XLSX, dan dijelajahi melalui UI
  • Saat interval pembaruan (30 menit, 6 jam, 12 jam, harian, mingguan) ditetapkan, agen akan dijalankan ulang sesuai jadwal untuk terus memperbarui dataset
  • Baik manusia maupun agen AI, semua interaksi dengan web pada akhirnya bermuara pada data (harga, perusahaan, perekrutan, riset, ketersediaan, stok, dll.)
    • Data ini tersebar di banyak halaman, dan menangani pengumpulan data lintas kategori yang tidak bisa ditangani oleh alat scraping/API pencarian/alat LeadGen yang ada
      — tidak perlu lagi melakukan sendiri atau menggabungkan pekerjaan pencarian/ekstraksi/perancangan skema/penghapusan duplikasi/verifikasi/cron setiap saat
  • Pembuatan dan ekspor dataset juga bisa dilakukan melalui CLI terminal
    • bigset create "..." --rows 30 --wait --csv
  • Namun, proyek ini masih dalam tahap eksperimental sehingga inferensi skema belum selalu sempurna. Hanya cocok untuk data publik
  • Tech stack
    • Frontend: Next.js 16, React 19, Tailwind 4
    • Backend: Fastify, TypeScript (agent runner)
    • Autentikasi: autentikasi lokal (pengembangan), Clerk (cloud)
    • Database: Convex (self-hosted)
    • Pengumpulan data: TinyFish API (Search, Fetch, Browser)
    • Orkestrasi AI: workflow Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inferensi skema + agen populate)
    • Tampilan tabel: TanStack Table + virtualisasi react-window
    • Ekspor: CSV (bawaan) + XLSX (SheetJS, dynamic import)
    • Analitik: PostHog — event, session replay, pelacakan error (opsional)
  • Lisensi AGPL-3.0

Belum ada komentar.

Belum ada komentar.