Bagaimana DALL-E 2 Bekerja?
(assemblyai.com)- Menghubungkan teks dan makna visual (semantics)
→ Menggunakan model CLIP: mempelajari ratusan juta gambar dan caption terkait untuk memahami seberapa relevan caption tersebut terhadap gambar - Menghasilkan gambar dari makna visual
→ Menggunakan model GLIDE: mempelajari cara membalik proses encoding gambar. Menggunakan model difusi (diffusion) - Memetakan dari makna teks ke makna visual yang sesuai
→ Menggunakan model Prior: memetakan encoding teks dari caption gambar ke encoding gambar dari gambar tersebut - Mengintegrasikan semuanya
→ Encoder teks CLIP memetakan deskripsi gambar ke ruang representasi
→ Diffusion Prior memetakan dari encoding teks CLIP ke encoding gambar CLIP yang relevan
→ Model generatif GLIDE yang dimodifikasi menggunakan difusi balik untuk memetakan dari ruang representasi ke ruang gambar, dan menghasilkan banyak kemungkinan gambar yang menyampaikan informasi makna dalam caption yang diberikan
3 hal penting
- DALL-E 2 menunjukkan kekuatan model difusi
- Menekankan pentingnya dan kekuatan penggunaan bahasa alami sebagai sarana untuk melatih model deep learning mutakhir
- Menegaskan kembali bahwa Transformers berada di posisi teratas untuk model yang dilatih pada dataset berskala web
1 komentar
Pengungkapan DALL·E 2
Hal-hal yang bisa dicoba dengan DALL·E