5 poin oleh xguru 2022-04-21 | 1 komentar | Bagikan ke WhatsApp
  1. Menghubungkan teks dan makna visual (semantics)
    → Menggunakan model CLIP: mempelajari ratusan juta gambar dan caption terkait untuk memahami seberapa relevan caption tersebut terhadap gambar
  2. Menghasilkan gambar dari makna visual
    → Menggunakan model GLIDE: mempelajari cara membalik proses encoding gambar. Menggunakan model difusi (diffusion)
  3. Memetakan dari makna teks ke makna visual yang sesuai
    → Menggunakan model Prior: memetakan encoding teks dari caption gambar ke encoding gambar dari gambar tersebut
  4. Mengintegrasikan semuanya
    → Encoder teks CLIP memetakan deskripsi gambar ke ruang representasi
    → Diffusion Prior memetakan dari encoding teks CLIP ke encoding gambar CLIP yang relevan
    → Model generatif GLIDE yang dimodifikasi menggunakan difusi balik untuk memetakan dari ruang representasi ke ruang gambar, dan menghasilkan banyak kemungkinan gambar yang menyampaikan informasi makna dalam caption yang diberikan

3 hal penting

  1. DALL-E 2 menunjukkan kekuatan model difusi
  2. Menekankan pentingnya dan kekuatan penggunaan bahasa alami sebagai sarana untuk melatih model deep learning mutakhir
  3. Menegaskan kembali bahwa Transformers berada di posisi teratas untuk model yang dilatih pada dataset berskala web