Bagaimana DALL-E 2 Bekerja?

xguru · 2022-04-21T09:04:02+09:00

Menghubungkan teks dan makna visual (semantics) → Menggunakan model CLIP: mempelajari ratusan juta gambar dan caption terkait untuk memahami seberapa relevan caption tersebut terhadap gambar Menghasilkan gambar dari makna visual → Menggunakan model GLIDE: mempelajari cara membalik proses encoding gambar. Menggunakan model difusi (diffusion) Memetakan dari makna teks ke makna visual yang sesuai → Menggunakan model Prior: memetakan encoding teks dari caption gambar ke encoding gambar dari gambar tersebut Mengintegrasikan semuanya → Encoder teks CLIP memetakan deskripsi gambar ke ruang representasi → Diffusion Prior memetakan dari encoding teks CLIP ke encoding gambar CLIP yang relevan → Model generatif GLIDE yang dimodifikasi menggunakan difusi balik untuk memetakan dari ruang representasi ke ruang gambar, dan menghasilkan banyak kemungkinan gambar yang menyampaikan informasi makna dalam caption yang diberikan 3 hal penting DALL-E 2 menunjukkan kekuatan model difusi Menekankan pentingnya dan kekuatan penggunaan bahasa alami sebagai sarana untuk melatih model deep learning mutakhir Menegaskan kembali bahwa Transformers berada di posisi teratas untuk model yang dilatih pada dataset berskala web

(assemblyai.com)

5 poin oleh xguru 2022-04-21 | 1 komentar | Bagikan ke WhatsApp

Menghubungkan teks dan makna visual (semantics)
→ Menggunakan model CLIP: mempelajari ratusan juta gambar dan caption terkait untuk memahami seberapa relevan caption tersebut terhadap gambar
Menghasilkan gambar dari makna visual
→ Menggunakan model GLIDE: mempelajari cara membalik proses encoding gambar. Menggunakan model difusi (diffusion)
Memetakan dari makna teks ke makna visual yang sesuai
→ Menggunakan model Prior: memetakan encoding teks dari caption gambar ke encoding gambar dari gambar tersebut
Mengintegrasikan semuanya
→ Encoder teks CLIP memetakan deskripsi gambar ke ruang representasi
→ Diffusion Prior memetakan dari encoding teks CLIP ke encoding gambar CLIP yang relevan
→ Model generatif GLIDE yang dimodifikasi menggunakan difusi balik untuk memetakan dari ruang representasi ke ruang gambar, dan menghasilkan banyak kemungkinan gambar yang menyampaikan informasi makna dalam caption yang diberikan

3 hal penting

DALL-E 2 menunjukkan kekuatan model difusi
Menekankan pentingnya dan kekuatan penggunaan bahasa alami sebagai sarana untuk melatih model deep learning mutakhir
Menegaskan kembali bahwa Transformers berada di posisi teratas untuk model yang dilatih pada dataset berskala web

1 komentar

xguru 2022-04-21

Pengungkapan DALL·E 2
Hal-hal yang bisa dicoba dengan DALL·E

Bagaimana DALL-E 2 Bekerja?

3 hal penting

Bacaan terkait

1 komentar