DALL·E: Menghasilkan gambar dari teks
(openai.com)-
GPT-3 versi 12 miliar parameter
-
Dilatih untuk menghasilkan gambar dari deskripsi teks menggunakan kumpulan data yang terdiri dari pasangan teks-gambar
-
Menunjukkan berbagai kemampuan seperti membuat versi antropomorfik dari hewan dan benda, menggabungkan konsep yang tidak berhubungan secara meyakinkan, merender teks, atau menerapkan transformasi pada gambar yang sudah ada
→ Kontrol atribut: bentuk, warna, material, jumlah kemunculan, dan lain-lain
→ Menggambar beberapa objek sekaligus dan mengekspresikan hubungan di antaranya
→ Mengekspresikan perspektif dan visualisasi 3 dimensi
→ Mengekspresikan struktur bagian dalam dan luar: bagian dalam kenari, karang otak, dan lain-lain
→ Menyimpulkan detail sesuai situasi: mengekspresikannya dengan mengubah gaya/pengaturan/waktu, seperti menampilkan bayangan yang sesuai dengan situasi
→ Desain fesyen dan interior
→ Menggabungkan konsep yang sama sekali tidak berhubungan: siput yang terbuat dari harpa, kursi berbentuk alpukat
→ Penalaran visual zero-shot
→ Pembuatan gambar berbasis informasi geografis/waktu
- DALL·E menerima 256 token teks dan 1024 token gambar sebagai satu aliran tunggal, lalu memodelkannya dengan pendekatan autoregresif menggunakan transformer decoder-only yang sederhana
1 komentar
Wah, ini benar-benar luar biasa. Saya menantikan hari ketika ini diterapkan dalam kehidupan sehari-hari.