DeepFloyd IF - model Text-to-Image open source
(github.com/deep-floyd)- Model gambar baru dari Stability AI
- Pemahaman bahasanya lebih tinggi dibanding model-model sebelumnya, dan menghasilkan gambar yang fotorealistis
- Kombinasi encoder teks Frozen berbasis T5 Transformer dan modul difusi piksel 3 tahap
- 64x64, 256x256, 1024x1024px
- Skor Zero-shot FID 6.66 (dataset COCO)
Belum ada komentar.