SnapFusion - model difusi text-to-image yang dapat dihasilkan dalam 2 detik di perangkat seluler
(snap-research.github.io)- Dicapai dengan meningkatkan arsitektur jaringan yang efisien dan distillation bertahap
- Mengidentifikasi redundansi pada model asli dan menghadirkan UNet yang efisien yang mengurangi komputasi decoder gambar melalui distilasi data
- Hasil eksperimen dengan MS-COCO menunjukkan bahwa model SnapFusion yang hanya memiliki 8 langkah denoising mencapai skor FID dan CLIP yang lebih baik dibanding Stable Diffusion v1.5 yang memiliki 50 langkah
1 komentar
Ini adalah makalah yang dirilis Snapchat, tetapi karena kodenya belum dipublikasikan... ada komentar-komentar yang berdebat, "benarkah ini benar-benar mungkin?" https://news.ycombinator.com/item?id=36304716
Untuk sementara, video demonya memang dijalankan dalam mode pesawat.