11 poin oleh xguru 2023-05-24 | 1 komentar | Bagikan ke WhatsApp
  • General Representation Model yang mencakup modalitas visi, audio, dan bahasa
  • Memberikan hasil yang sangat baik pada tugas-tugas terintegrasi bahkan tanpa model pralatih
  • Dengan Emergent Zero-shot Retrieval yang kuat, dapat menyelaraskan modalitas yang tidak dipasangkan dalam data pelatihan
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 komentar

 
dbs0829 2023-05-24

Kelihatannya model ini memecahkan rekor SOTA di banyak tugas.