voyage-multimodal-3: model embedding all-in-one untuk teks, gambar, dan tangkapan layar
(blog.voyageai.com)-
voyage-multimodal-3 adalah model mutakhir yang dapat memvektorkan karakteristik visual dan tekstual dari dokumen yang mencampurkan teks dan gambar
- Menangkap karakteristik visual utama dari tangkapan layar seperti PDF, slide, tabel, dan ilustrasi, sehingga menghilangkan kebutuhan akan parsing dokumen yang kompleks
- Menunjukkan peningkatan rata-rata akurasi pencarian sebesar 19,63% pada 3 tugas pencarian multimodal menggunakan 20 dataset
-
Perbandingan dengan model yang ada
- voyage-multimodal-3 menunjukkan performa yang masing-masing 41,44% dan 43,37% lebih baik daripada OpenAI CLIP large dan Cohere multimodal v3 dalam pencarian tabel/ilustrasi
- Dalam pencarian tangkapan layar dokumen, performanya masing-masing 26,54% dan 25,84% lebih baik
- Dalam pencarian teks-foto, performanya masing-masing 6,55% dan 5,86% lebih baik
-
Mendukung campuran teks dan gambar
- Model embedding multimodal sebelumnya memproses teks dan gambar dengan jaringan terpisah, tetapi voyage-multimodal-3 langsung memvektorkan kedua mode melalui encoder transformer yang sama
- Ini mempertahankan hubungan kontekstual antara informasi visual dan tekstual, sehingga memungkinkan pemvektoran teks dan gambar campuran, tangkapan layar dokumen, PDF dengan tata letak kompleks, dan lainnya
-
Pencarian mode campuran melalui tangkapan layar
- Model mirip CLIP mengalami penurunan performa dalam pencarian mode campuran karena kesenjangan antarmode
- voyage-multimodal-3 menunjukkan performa terbaik pada semua rasio tangkapan layar dan benar-benar menangkap konten semantik dari tangkapan layar
-
Detail evaluasi
- voyage-multimodal-3 dievaluasi pada 20 dataset multimodal dan 34 dataset pencarian teks
- Untuk setiap tugas, evaluasi dilakukan dengan menggunakan model performa terbaik sebelumnya sebagai acuan
-
Hasil
- Dalam pencarian multimodal, voyage-multimodal-3 menunjukkan performa lebih baik daripada OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M, dan ColQwen2 v0.1
- Dalam pencarian teks standar, performanya masing-masing 5,13% dan 13,70% lebih baik daripada OpenAI v3 large dan Cohere multimodal/English1 v3
-
Panduan penggunaan
- voyage-multimodal-3 saat ini sudah tersedia, dan 200 juta token pertama diberikan secara gratis
- Anda dapat memulai melalui notebook contoh atau merujuk ke dokumentasi untuk mendapatkan informasi lebih lanjut
1 komentar
Komentar Hacker News