- Dataset pelatihan berskala besar yang mencakup sekitar 740 juta pasangan gambar-teks dan banyak atribut lainnya
- Mengumpulkan gambar dalam dokumen HTML dan atribut
alt (string yang muncul ketika gambar tidak dapat ditampilkan di layar dalam HTML)
- Diharapkan dapat digunakan untuk melatih model fondasi skala besar dengan melengkapi dataset serupa lainnya
- ‘COYO’ sebelumnya telah diterapkan dalam pengembangan model pembuat gambar AI skala ultra-besar ‘RQ-Transformer’ dan artis AI ‘Karlo’
- Rincian proses pengumpulan data dapat dilihat dalam makalah yang akan dipublikasikan kemudian
1 komentar
COYO-700M: Dataset Pasangan Gambar-Teks
Kakao Brain merilis ‘COYO’, dataset kelas atas tingkat global