SnapFusion - model difusi text-to-image yang dapat dihasilkan dalam 2 detik di perangkat seluler

xguru · 2023-06-14T11:17:02+09:00

Dicapai dengan meningkatkan arsitektur jaringan yang efisien dan distillation bertahap Mengidentifikasi redundansi pada model asli dan menghadirkan UNet yang efisien yang mengurangi komputasi decoder gambar melalui distilasi data Hasil eksperimen dengan MS-COCO menunjukkan bahwa model SnapFusion yang hanya memiliki 8 langkah denoising mencapai skor FID dan CLIP yang lebih baik dibanding Stable Diffusion v1.5 yang memiliki 50 langkah

(snap-research.github.io)

9 poin oleh xguru 2023-06-14 | 1 komentar | Bagikan ke WhatsApp

Dicapai dengan meningkatkan arsitektur jaringan yang efisien dan distillation bertahap
Mengidentifikasi redundansi pada model asli dan menghadirkan UNet yang efisien yang mengurangi komputasi decoder gambar melalui distilasi data
Hasil eksperimen dengan MS-COCO menunjukkan bahwa model SnapFusion yang hanya memiliki 8 langkah denoising mencapai skor FID dan CLIP yang lebih baik dibanding Stable Diffusion v1.5 yang memiliki 50 langkah

1 komentar

xguru 2023-06-14

Ini adalah makalah yang dirilis Snapchat, tetapi karena kodenya belum dipublikasikan... ada komentar-komentar yang berdebat, "benarkah ini benar-benar mungkin?" https://news.ycombinator.com/item?id=36304716
Untuk sementara, video demonya memang dijalankan dalam mode pesawat.

SnapFusion - model difusi text-to-image yang dapat dihasilkan dalam 2 detik di perangkat seluler

Bacaan terkait

1 komentar