DeepSeek merilis model generasi text-to-image Janus Pro [PDF]

(github.com/deepseek-ai)

5 poin oleh GN⁺ 2025-01-28 | Belum ada komentar. | Bagikan ke WhatsApp

Janus-Pro: versi yang ditingkatkan dari model terpadu untuk pemahaman dan generasi multimodal
Model ini merupakan pengembangan dari model Janus sebelumnya, dengan peningkatan berikut
- Strategi pelatihan yang dioptimalkan
- Data pelatihan yang diperluas
- Skalasi ke ukuran model yang lebih besar
Tujuan: meningkatkan kinerja pemahaman multimodal dan generasi teks-ke-gambar, serta memperkuat stabilitas generasi

Peningkatan kinerja utama

Pemahaman multimodal

Janus-Pro mencatat skor tertinggi 79.2 pada benchmark pemahaman multimodal (MMBench)
Mencapai kinerja yang lebih baik daripada model sebelumnya (Janus, TokenFlow, MetaMorph)
Memisahkan encoding visual untuk mengurangi konflik antara pemahaman dan generasi

Generasi teks-ke-gambar

Pada benchmark GenEval, dengan akurasi 80%, melampaui DALL-E 3 (67%), SD3-Medium (74%), dan lainnya
Mencatat 84.19 poin pada DPG-Bench, dengan kinerja lebih baik daripada semua model lain

Struktur model dan peningkatan

Arsitektur model

Encoding visual dipisahkan untuk pemahaman multimodal dan generasi
Menggunakan encoder SigLIP untuk mengekstrak fitur semantik berdimensi tinggi
Decoder gambar mengubah gambar menjadi ID untuk dihubungkan sebagai input LLM

Strategi pelatihan yang dioptimalkan

Pelatihan bertahap: memperbaiki inefisiensi strategi 3 tahap sebelumnya
- Menerapkan waktu pelatihan yang lebih lama pada data ImageNet (Stage I)
- Memfokuskan pelatihan hanya pada data teks-ke-gambar (Stage II)
Penyesuaian rasio data: mengurangi porsi data teks-ke-gambar dan memperkuat kinerja pemahaman multimodal

Perluasan data dan model

Perluasan data:
- Menambahkan 90 juta sampel untuk pemahaman multimodal
- Memperkuat data generasi teks-ke-gambar dengan 70 juta data estetika sintetis
Skalasi model:
- Diperluas dari skala 1.5B ke 7B, sangat meningkatkan efisiensi pelatihan dan kinerja

Eksperimen dan evaluasi

Perbandingan kinerja

Janus-Pro-7B menunjukkan kinerja terbaik dibandingkan model dengan ukuran yang sama
- Dalam pemahaman multimodal dan generasi, melampaui model besar seperti TokenFlow-XL (13B)
Stabilitas dan kualitas estetika gambar yang dihasilkan juga meningkat

Keterbatasan

Resolusi rendah (384 × 384) membatasi tugas yang memerlukan detail tinggi seperti OCR
Kurang detail halus saat generasi teks-ke-gambar

Kesimpulan

Janus-Pro mencapai kemajuan penting dalam strategi pelatihan, data, dan ukuran model
Mencapai kinerja terbaik baik dalam pemahaman multimodal maupun generasi teks-ke-gambar
Ke depan, ada rencana untuk menangani tugas yang lebih detail melalui peningkatan resolusi

Belum ada komentar.

Belum ada komentar.