- Sintesis teks-ke-gambar yang ada saat ini dimungkinkan oleh model diffusion yang dilatih dengan puluhan miliar pasangan gambar-teks
- Untuk menerapkan pendekatan ini ke 3D, dibutuhkan dataset 3D berlabel berskala besar dan arsitektur untuk penghilangan noise, tetapi hal tersebut belum tersedia
- Karena itu, sintesis Text-to-3D dilakukan dengan memanfaatkan model diffusion Text-to-Image 2D yang telah dilatih sebelumnya
- Model 3D yang dibuat melalui teks dapat dilihat dari semua sudut, serta memungkinkan perubahan pencahayaan atau komposisi ke lingkungan 3D lain
Belum ada komentar.