13 poin oleh xguru 2023-12-28 | Belum ada komentar. | Bagikan ke WhatsApp
  • MLLM (Multimodal Large Language Model)
    • Memahami semua bentuk di dalam gambar serta referensi spasial yang terperinci
  • Kontribusi Utama
    • Model Ferret: representasi wilayah hibrida + sampler visual yang sadar spasial
    • Dataset GRIT: dataset penyetelan instruksi berskala besar, hierarkis, dan tangguh. Mencakup 1,1 juta sampel dan 950 ribu data hard negative
    • Ferret Bench: benchmark evaluasi multimodal (secara gabungan menuntut Referring/Grounding + Semantics + Knowledge + Reasoning)

Belum ada komentar.

Belum ada komentar.