- Versi kecil dari model multimodal (gambar + teks) yang mereka gunakan dalam produk mereka
- Arsitektur dan proses pelatihannya sangat sederhana (tanpa image encoder)
- Dirancang untuk agen digital, mendukung resolusi gambar arbitrer, serta mampu menjawab pertanyaan tentang grafik dan diagram maupun pertanyaan berbasis UI
- Sangat cepat hingga mampu menghasilkan jawaban dalam 100 ms bahkan untuk gambar besar
- Meskipun dioptimalkan untuk use case mereka sendiri, performanya juga sangat baik pada benchmark standar pemahaman gambar
- Dirilis dengan lisensi CC-BY-NC
Belum ada komentar.