Ferret - LLM Multimodal Apple
(github.com/apple)- MLLM (Multimodal Large Language Model)
- Memahami semua bentuk di dalam gambar serta referensi spasial yang terperinci
- Kontribusi Utama
- Model Ferret: representasi wilayah hibrida + sampler visual yang sadar spasial
- Dataset GRIT: dataset penyetelan instruksi berskala besar, hierarkis, dan tangguh. Mencakup 1,1 juta sampel dan 950 ribu data hard negative
- Ferret Bench: benchmark evaluasi multimodal (secara gabungan menuntut Referring/Grounding + Semantics + Knowledge + Reasoning)
Belum ada komentar.