9 poin oleh xguru 2023-10-23 | Belum ada komentar. | Bagikan ke WhatsApp
  • Versi kecil dari model multimodal (gambar + teks) yang mereka gunakan dalam produk mereka
  • Arsitektur dan proses pelatihannya sangat sederhana (tanpa image encoder)
  • Dirancang untuk agen digital, mendukung resolusi gambar arbitrer, serta mampu menjawab pertanyaan tentang grafik dan diagram maupun pertanyaan berbasis UI
  • Sangat cepat hingga mampu menghasilkan jawaban dalam 100 ms bahkan untuk gambar besar
  • Meskipun dioptimalkan untuk use case mereka sendiri, performanya juga sangat baik pada benchmark standar pemahaman gambar
  • Dirilis dengan lisensi CC-BY-NC

Belum ada komentar.

Belum ada komentar.