12 poin oleh xguru 2021-09-15 | Belum ada komentar. | Bagikan ke WhatsApp
  • Dataset gambar terbesar di dunia di antara yang dibuka gratis untuk publik

→ Dump data hasil crawling halaman web dari 2014 hingga 2021

  • Semua gambar/teks sudah difilter menggunakan CLIP dari OpenAI

→ Menyaring pasangan dengan kemiripan gambar/teks di bawah 0.3 lalu memverifikasinya secara manual

  • Struktur dataset

→ File Parquet metadata URL+caption sebesar 50GB

→ WebDataset versi penuh 10TB yang bisa langsung digunakan untuk pelatihan dengan gambar/caption/metadata 256x256

→ Embedding klip teks/gambar 400M sebesar 1TB. Berguna untuk membangun ulang indeks KNN

→ Dua indeks KNN berukuran 4GB yang memudahkan pencarian dataset

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

Belum ada komentar.

Belum ada komentar.