5 poin oleh GN⁺ 2025-01-28 | Belum ada komentar. | Bagikan ke WhatsApp
  • Janus-Pro: versi yang ditingkatkan dari model terpadu untuk pemahaman dan generasi multimodal
  • Model ini merupakan pengembangan dari model Janus sebelumnya, dengan peningkatan berikut
    • Strategi pelatihan yang dioptimalkan
    • Data pelatihan yang diperluas
    • Skalasi ke ukuran model yang lebih besar
  • Tujuan: meningkatkan kinerja pemahaman multimodal dan generasi teks-ke-gambar, serta memperkuat stabilitas generasi

Peningkatan kinerja utama

Pemahaman multimodal

  • Janus-Pro mencatat skor tertinggi 79.2 pada benchmark pemahaman multimodal (MMBench)
  • Mencapai kinerja yang lebih baik daripada model sebelumnya (Janus, TokenFlow, MetaMorph)
  • Memisahkan encoding visual untuk mengurangi konflik antara pemahaman dan generasi

Generasi teks-ke-gambar

  • Pada benchmark GenEval, dengan akurasi 80%, melampaui DALL-E 3 (67%), SD3-Medium (74%), dan lainnya
  • Mencatat 84.19 poin pada DPG-Bench, dengan kinerja lebih baik daripada semua model lain

Struktur model dan peningkatan

Arsitektur model

  • Encoding visual dipisahkan untuk pemahaman multimodal dan generasi
  • Menggunakan encoder SigLIP untuk mengekstrak fitur semantik berdimensi tinggi
  • Decoder gambar mengubah gambar menjadi ID untuk dihubungkan sebagai input LLM

Strategi pelatihan yang dioptimalkan

  • Pelatihan bertahap: memperbaiki inefisiensi strategi 3 tahap sebelumnya
    • Menerapkan waktu pelatihan yang lebih lama pada data ImageNet (Stage I)
    • Memfokuskan pelatihan hanya pada data teks-ke-gambar (Stage II)
  • Penyesuaian rasio data: mengurangi porsi data teks-ke-gambar dan memperkuat kinerja pemahaman multimodal

Perluasan data dan model

  • Perluasan data:
    • Menambahkan 90 juta sampel untuk pemahaman multimodal
    • Memperkuat data generasi teks-ke-gambar dengan 70 juta data estetika sintetis
  • Skalasi model:
    • Diperluas dari skala 1.5B ke 7B, sangat meningkatkan efisiensi pelatihan dan kinerja

Eksperimen dan evaluasi

Perbandingan kinerja

  • Janus-Pro-7B menunjukkan kinerja terbaik dibandingkan model dengan ukuran yang sama
    • Dalam pemahaman multimodal dan generasi, melampaui model besar seperti TokenFlow-XL (13B)
  • Stabilitas dan kualitas estetika gambar yang dihasilkan juga meningkat

Keterbatasan

  • Resolusi rendah (384 × 384) membatasi tugas yang memerlukan detail tinggi seperti OCR
  • Kurang detail halus saat generasi teks-ke-gambar

Kesimpulan

  • Janus-Pro mencapai kemajuan penting dalam strategi pelatihan, data, dan ukuran model
  • Mencapai kinerja terbaik baik dalam pemahaman multimodal maupun generasi teks-ke-gambar
  • Ke depan, ada rencana untuk menangani tugas yang lebih detail melalui peningkatan resolusi

Belum ada komentar.

Belum ada komentar.