• Grok-1.5V, model multimodal generasi pertama, kini selain memiliki kemampuan teks yang kuat juga dapat memproses berbagai informasi visual secara luas, termasuk dokumen, diagram, grafik, tangkapan layar, dan foto.
• Grok-1.5V melampaui model multimodal yang ada di berbagai bidang seperti penalaran multidisipliner, pemahaman dokumen, diagram ilmiah, grafik, tangkapan layar, dan foto, serta menunjukkan kemampuan unggul dalam memahami dunia fisik.
• Untuk mengevaluasi kemampuan dasar pemahaman ruang dunia nyata pada model multimodal, kami memperkenalkan benchmark baru bernama RealWorldQA, yang terdiri dari lebih dari 700 gambar dengan pertanyaan dan jawaban yang mudah diverifikasi.
• Grok-1.5V akan segera tersedia bagi penguji awal dan pengguna Grok yang sudah ada, dan kemampuan multimodalnya sedang diperluas secara aktif ke berbagai modalitas seperti gambar, audio, dan video.
Belum ada komentar.