- Janus-Pro: versi yang ditingkatkan dari model terpadu untuk pemahaman dan generasi multimodal
- Model ini merupakan pengembangan dari model Janus sebelumnya, dengan peningkatan berikut
- Strategi pelatihan yang dioptimalkan
- Data pelatihan yang diperluas
- Skalasi ke ukuran model yang lebih besar
- Tujuan: meningkatkan kinerja pemahaman multimodal dan generasi teks-ke-gambar, serta memperkuat stabilitas generasi
Peningkatan kinerja utama
Pemahaman multimodal
- Janus-Pro mencatat skor tertinggi 79.2 pada benchmark pemahaman multimodal (MMBench)
- Mencapai kinerja yang lebih baik daripada model sebelumnya (Janus, TokenFlow, MetaMorph)
- Memisahkan encoding visual untuk mengurangi konflik antara pemahaman dan generasi
Generasi teks-ke-gambar
- Pada benchmark GenEval, dengan akurasi 80%, melampaui DALL-E 3 (67%), SD3-Medium (74%), dan lainnya
- Mencatat 84.19 poin pada DPG-Bench, dengan kinerja lebih baik daripada semua model lain
Struktur model dan peningkatan
Arsitektur model
- Encoding visual dipisahkan untuk pemahaman multimodal dan generasi
- Menggunakan encoder SigLIP untuk mengekstrak fitur semantik berdimensi tinggi
- Decoder gambar mengubah gambar menjadi ID untuk dihubungkan sebagai input LLM
Strategi pelatihan yang dioptimalkan
- Pelatihan bertahap: memperbaiki inefisiensi strategi 3 tahap sebelumnya
- Menerapkan waktu pelatihan yang lebih lama pada data ImageNet (Stage I)
- Memfokuskan pelatihan hanya pada data teks-ke-gambar (Stage II)
- Penyesuaian rasio data: mengurangi porsi data teks-ke-gambar dan memperkuat kinerja pemahaman multimodal
Perluasan data dan model
- Perluasan data:
- Menambahkan 90 juta sampel untuk pemahaman multimodal
- Memperkuat data generasi teks-ke-gambar dengan 70 juta data estetika sintetis
- Skalasi model:
- Diperluas dari skala 1.5B ke 7B, sangat meningkatkan efisiensi pelatihan dan kinerja
Eksperimen dan evaluasi
Perbandingan kinerja
- Janus-Pro-7B menunjukkan kinerja terbaik dibandingkan model dengan ukuran yang sama
- Dalam pemahaman multimodal dan generasi, melampaui model besar seperti TokenFlow-XL (13B)
- Stabilitas dan kualitas estetika gambar yang dihasilkan juga meningkat
Keterbatasan
- Resolusi rendah (384 × 384) membatasi tugas yang memerlukan detail tinggi seperti OCR
- Kurang detail halus saat generasi teks-ke-gambar
Kesimpulan
- Janus-Pro mencapai kemajuan penting dalam strategi pelatihan, data, dan ukuran model
- Mencapai kinerja terbaik baik dalam pemahaman multimodal maupun generasi teks-ke-gambar
- Ke depan, ada rencana untuk menangani tugas yang lebih detail melalui peningkatan resolusi
Belum ada komentar.