4 poin oleh GN⁺ 2024-11-18 | 1 komentar | Bagikan ke WhatsApp
  • voyage-multimodal-3 adalah model mutakhir yang dapat memvektorkan karakteristik visual dan tekstual dari dokumen yang mencampurkan teks dan gambar

    • Menangkap karakteristik visual utama dari tangkapan layar seperti PDF, slide, tabel, dan ilustrasi, sehingga menghilangkan kebutuhan akan parsing dokumen yang kompleks
    • Menunjukkan peningkatan rata-rata akurasi pencarian sebesar 19,63% pada 3 tugas pencarian multimodal menggunakan 20 dataset
  • Perbandingan dengan model yang ada

    • voyage-multimodal-3 menunjukkan performa yang masing-masing 41,44% dan 43,37% lebih baik daripada OpenAI CLIP large dan Cohere multimodal v3 dalam pencarian tabel/ilustrasi
    • Dalam pencarian tangkapan layar dokumen, performanya masing-masing 26,54% dan 25,84% lebih baik
    • Dalam pencarian teks-foto, performanya masing-masing 6,55% dan 5,86% lebih baik
  • Mendukung campuran teks dan gambar

    • Model embedding multimodal sebelumnya memproses teks dan gambar dengan jaringan terpisah, tetapi voyage-multimodal-3 langsung memvektorkan kedua mode melalui encoder transformer yang sama
    • Ini mempertahankan hubungan kontekstual antara informasi visual dan tekstual, sehingga memungkinkan pemvektoran teks dan gambar campuran, tangkapan layar dokumen, PDF dengan tata letak kompleks, dan lainnya
  • Pencarian mode campuran melalui tangkapan layar

    • Model mirip CLIP mengalami penurunan performa dalam pencarian mode campuran karena kesenjangan antarmode
    • voyage-multimodal-3 menunjukkan performa terbaik pada semua rasio tangkapan layar dan benar-benar menangkap konten semantik dari tangkapan layar
  • Detail evaluasi

    • voyage-multimodal-3 dievaluasi pada 20 dataset multimodal dan 34 dataset pencarian teks
    • Untuk setiap tugas, evaluasi dilakukan dengan menggunakan model performa terbaik sebelumnya sebagai acuan
  • Hasil

    • Dalam pencarian multimodal, voyage-multimodal-3 menunjukkan performa lebih baik daripada OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M, dan ColQwen2 v0.1
    • Dalam pencarian teks standar, performanya masing-masing 5,13% dan 13,70% lebih baik daripada OpenAI v3 large dan Cohere multimodal/English1 v3
  • Panduan penggunaan

    • voyage-multimodal-3 saat ini sudah tersedia, dan 200 juta token pertama diberikan secara gratis
    • Anda dapat memulai melalui notebook contoh atau merujuk ke dokumentasi untuk mendapatkan informasi lebih lanjut

1 komentar

 
GN⁺ 2024-11-18
Komentar Hacker News
  • Model CLIP memiliki kelemahan performa dalam pencarian modalitas campuran. Ini disebabkan oleh kesenjangan modalitas, yang menimbulkan masalah ketika vektor teks justru tampak lebih dekat dengan teks yang tidak relevan
    • Gemini dari Google sejak awal dirancang sebagai multimodal, sehingga memperbaiki masalah ini. Model ini dipra-latih dengan beragam modalitas sehingga dapat memahami dan melakukan penalaran terhadap semua input secara efektif
  • Proyek ColiVara mengimplementasikan model multimodal menggunakan ColPali. Ingin membandingkan performa VoyageAI di leaderboard Vidore
  • Disayangkan bahwa model komersial hanya disediakan lewat API
  • Diperlukan sudut pandang yang kritis terhadap model yang hanya tersedia lewat API. Terutama, evaluasi terhadap teks non-Inggris juga diperlukan
  • Penting untuk melakukan analisis kualitatif menggunakan dataset dunia nyata. Benchmark kuantitatif memang berguna, tetapi jarang digunakan
  • Ini adalah cara yang menarik untuk melihat embedding multimodal. Kinerja dievaluasi berdasarkan tingkat peralihan input dari satu modalitas ke modalitas lain
  • Mesin Voyage dalam API Python tradisional men-tokenisasi blok teks dan menghasilkan string karakter. Model ini melakukan hal tersebut melalui vektorisasi gambar
    • Kata-kata seperti 'you' dan 'apple' diproses sebagai token tunggal, sedangkan istilah yang lebih kompleks seperti 'pikachu' dapat dipecah menjadi 'pik-a-chu'
  • Di Colab, nilai dot product 0.428 dan 0.498 dijelaskan sebagai "nilai kemiripan yang cukup tinggi". Ada pertanyaan apakah sistem dapat dirancang untuk memberi label data dengan percaya diri menggunakan ambang 0.4