- Dataset gambar terbesar di dunia di antara yang dibuka gratis untuk publik
→ Dump data hasil crawling halaman web dari 2014 hingga 2021
- Semua gambar/teks sudah difilter menggunakan CLIP dari OpenAI
→ Menyaring pasangan dengan kemiripan gambar/teks di bawah 0.3 lalu memverifikasinya secara manual
- Struktur dataset
→ File Parquet metadata URL+caption sebesar 50GB
→ WebDataset versi penuh 10TB yang bisa langsung digunakan untuk pelatihan dengan gambar/caption/metadata 256x256
→ Embedding klip teks/gambar 400M sebesar 1TB. Berguna untuk membangun ulang indeks KNN
→ Dua indeks KNN berukuran 4GB yang memudahkan pencarian dataset
SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT
Belum ada komentar.