Grok-1.5 Vision Preview: Memperkenalkan model multimodal pertama dengan kemampuan pemrosesan visual tingkat lanjut

(x.ai)

5 poin oleh brainer 2024-04-14 | Belum ada komentar. | Bagikan ke WhatsApp

• Grok-1.5V, model multimodal generasi pertama, kini selain memiliki kemampuan teks yang kuat juga dapat memproses berbagai informasi visual secara luas, termasuk dokumen, diagram, grafik, tangkapan layar, dan foto.

• Grok-1.5V melampaui model multimodal yang ada di berbagai bidang seperti penalaran multidisipliner, pemahaman dokumen, diagram ilmiah, grafik, tangkapan layar, dan foto, serta menunjukkan kemampuan unggul dalam memahami dunia fisik.

• Untuk mengevaluasi kemampuan dasar pemahaman ruang dunia nyata pada model multimodal, kami memperkenalkan benchmark baru bernama RealWorldQA, yang terdiri dari lebih dari 700 gambar dengan pertanyaan dan jawaban yang mudah diverifikasi.

• Grok-1.5V akan segera tersedia bagi penguji awal dan pengguna Grok yang sudah ada, dan kemampuan multimodalnya sedang diperluas secara aktif ke berbagai modalitas seperti gambar, audio, dan video.

Grok-1.5 Vision Preview: Memperkenalkan model multimodal pertama dengan kemampuan pemrosesan visual tingkat lanjut

Bacaan terkait

Belum ada komentar.