Ferret - LLM Multimodal Apple

xguru · 2023-12-28T11:21:02+09:00

MLLM (Multimodal Large Language Model) Memahami semua bentuk di dalam gambar serta referensi spasial yang terperinci Kontribusi Utama Model Ferret: representasi wilayah hibrida + sampler visual yang sadar spasial Dataset GRIT: dataset penyetelan instruksi berskala besar, hierarkis, dan tangguh. Mencakup 1,1 juta sampel dan 950 ribu data hard negative Ferret Bench: benchmark evaluasi multimodal (secara gabungan menuntut Referring/Grounding + Semantics + Knowledge + Reasoning)

(github.com/apple)

13 poin oleh xguru 2023-12-28 | Belum ada komentar. | Bagikan ke WhatsApp

MLLM (Multimodal Large Language Model)
- Memahami semua bentuk di dalam gambar serta referensi spasial yang terperinci
Kontribusi Utama
- Model Ferret: representasi wilayah hibrida + sampler visual yang sadar spasial
- Dataset GRIT: dataset penyetelan instruksi berskala besar, hierarkis, dan tangguh. Mencakup 1,1 juta sampel dan 950 ribu data hard negative
- Ferret Bench: benchmark evaluasi multimodal (secara gabungan menuntut Referring/Grounding + Semantics + Knowledge + Reasoning)

Ferret - LLM Multimodal Apple

Bacaan terkait

Belum ada komentar.