bigset - Bagaimana jika Anda memiliki semua data di dunia?
(github.com/tinyfish-io)- Alat open-source untuk membuat dataset terstruktur dari web langsung hanya dengan satu kalimat bahasa alami, lalu memperbaruinya secara otomatis pada interval yang ditentukan
- Contoh: "Daftar perusahaan YC yang saat ini sedang merekrut engineer beserta tahap pendanaan, lokasi, dan jumlah lowongan publik"
- Menginferensi skema secara otomatis dari kalimat masukan — menentukan nama kolom, tipe, kunci utama, hingga lokasi pencarian di web
- Agen otonom menelusuri web langsung, lalu membandingkan dan memverifikasi dengan sumber nyata sebelum menghapus duplikasi dan mengembalikannya dalam bentuk tabel
- Saat agen orkestrator menemukan entitas, sub-agen akan tersebar secara paralel untuk meneliti dan memverifikasi tiap entitas
- Hasil dapat diunduh sebagai CSV / XLSX, dan dijelajahi melalui UI
- Saat interval pembaruan (30 menit, 6 jam, 12 jam, harian, mingguan) ditetapkan, agen akan dijalankan ulang sesuai jadwal untuk terus memperbarui dataset
- Baik manusia maupun agen AI, semua interaksi dengan web pada akhirnya bermuara pada data (harga, perusahaan, perekrutan, riset, ketersediaan, stok, dll.)
- Data ini tersebar di banyak halaman, dan menangani pengumpulan data lintas kategori yang tidak bisa ditangani oleh alat scraping/API pencarian/alat LeadGen yang ada
— tidak perlu lagi melakukan sendiri atau menggabungkan pekerjaan pencarian/ekstraksi/perancangan skema/penghapusan duplikasi/verifikasi/cron setiap saat
- Data ini tersebar di banyak halaman, dan menangani pengumpulan data lintas kategori yang tidak bisa ditangani oleh alat scraping/API pencarian/alat LeadGen yang ada
- Pembuatan dan ekspor dataset juga bisa dilakukan melalui CLI terminal
bigset create "..." --rows 30 --wait --csv
- Namun, proyek ini masih dalam tahap eksperimental sehingga inferensi skema belum selalu sempurna. Hanya cocok untuk data publik
- Tech stack
- Frontend: Next.js 16, React 19, Tailwind 4
- Backend: Fastify, TypeScript (agent runner)
- Autentikasi: autentikasi lokal (pengembangan), Clerk (cloud)
- Database: Convex (self-hosted)
- Pengumpulan data: TinyFish API (Search, Fetch, Browser)
- Orkestrasi AI: workflow Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inferensi skema + agen populate)
- Tampilan tabel: TanStack Table + virtualisasi react-window
- Ekspor: CSV (bawaan) + XLSX (SheetJS, dynamic import)
- Analitik: PostHog — event, session replay, pelacakan error (opsional)
- Lisensi AGPL-3.0
Belum ada komentar.